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La presente invention releve du dornaine de la 
glycotechnologie et plus particulierement de la synthese d'oligosaccharides 
ou oligosides a effet prebiotique, th£rapeutique ou diagnostique. 

La presente invention porte sur des molecules d'acides 

10 nucleiques codant une enzyme ayant une activite de glycosyltransferase 
catalysant la synthese de dextranes ou d'oligosides portant des 
ramifications de type oc(1 -» 2) osidiques. 

L'invention porte en outre sur les enzymes synthetisees par 
les acides nucleiques selon Tinvention, ainsi que sur leurs systemes 

15 d'expression dans des cellules procaryotes ou eucaryotes. Elies portent 
enfin sur {'utilisation desdites enzymes dans la production 
d'oligosacchandes dans ['alimentation, ou en tant que principe actif de 
produits therapeutiques et/ou cosmetiques. 

Les oligosides et h&erooligosides jouent le role de signaux de 

20 reconnaissance et d'effecteur chez Tanimal comme dans les plantes (on 
parie alors d'oligosaccharines), en se liant specifiquement a des lectines, 
des glycosyltransferases, des glycosidases, des molecules d'adhesion, 
etc... Ainsi, les determinants antigeniques des groupes sanguins sont des 
osides, et notre defense contre nombre de bacteries pathogenes est dirigee 

25 contre les structures osidiques de Tenveloppe bacterienne. Par ailleurs, 
Tune des raisons majeures du rejet des xenogreffes est Texistence de 
structures osidiques propres a chaque espece. Ces proprietes, ainsi que 
les connaissances acquises ces dernieres annees sur les 
glycosyltransferases et les lectines, contribuent a faire de certains 

30 oligosides des candidats de choix pour la therapeutique ou ia prophylaxie 

des desordres lies a Tequilibre microbiologique de differents organes tels 



Tintestin, ou la peau. Par exemple, les oligosides constituent une alternative 
interessante a Tutifisation de microorganismes et d'antibiotiques pour 
reguler la composition de la flore intestinaie (effet prebiotique). Certains 
oligosides peuvent etre consideres comme des "fibres solubles" lorsqu'ils 
5 ne sont pas metabolises par ies enzymes digestives humaines et animales 
; en gagnant le colon, Hs interagissent avec la flore microbienne et affectent 
specifiquement la croissance et Padhesion de certaines especes. 
Incorporees a faible dose (moins de 1 %) dans I'alimentation, certaines de 
ces molecules osidiques ameliorent I'etat de sante et stimulent la prise de 
10 poids des animau*. 

Line revue des differentes giycosyltransferases, ieur structure 
et Ieur actrvite, est decrite dans Vincent Monchois et al. (ref. 1). 
Brievement : 

a) II apparait que ia structure des giycosyltransferases et/ou 
15 dextrane-saccharases etudiees est tr6s conservee et est constitute, 

partant de la partie aminee de la proteine, d f une sequence signal, d'un 
domaine variable, d'un domaine catalytique et d'un domaine de liaison au 
glucane. 

b) Les glucooligosides (GOS) sont synthetisabies par des 
20 giycosyltransferases telles les dextrane-saccharases, a partir de substrats 

peu couteux tel le saccharose et en presence d'un sucre accepteur de 
glucose. D'autres substrats, tels I'a-D-fluoro-glucose, le paranitrophenyl-a- 
D-glucopyranoside, Ta-D-glucopyranoside-a-D-sorbofuranoside ou le 4-0- 
a-D-galactopyranosylsucrose peuvent egalement etre utilises. 
25 Ces enzymes catalysent a partir du substrat le transfert 

d'unites glucose sur des molecules acceptrices. En presence d'un 
accepteur de glucose tel le maltose, ou risomaltose, les 
giycosyltransferases catalysent la synthese d'oligosaccharides de bas 
poids moiecuiaire comprenant majoritairement des chaTnes de 3 a 7 
glucoses. En revanche, en absence d'accepteur, Tenzyme synthetise des 
glucanes de haut poids moiecuiaire de type dextrane. 



30 



c) Les structures et la fonction des glucanes ou des oligosides 
synthetases par les glycosyltransferases dependent de la souche 
bacterienne productrice. 

Dans Pensemble de ce texte, on appellera de fagon generique 
des glycosyltransferases les differentes enzymes capables de catalyser la 
synthese de polymeres de glucose a partir de saccharose. Elles sont 
generalement produces par des souches bacteriennes de type 
Leuconostoc, Lactococcus, Streptococcus ou Neisseria. La taille et la 
structure des glucanes produits dependent de la souche productrice. 

Les unites de glucose sont couplees par des liaisons 
osidiques a(1-»6) comme dans le dextrane, par des liaisons a(1-*3), 
comme dans le cas du mutane, ou par une alternance des deux types 
(altemane). 

De la meme facon, {'existence et la nature des ramifications, 
leur longueur et leur position varient selon Porigine de la souche 
productrice. 

Les glycosyltransferases produisant des glucanes ou des 
GOS contenant au moins 50 % de liaison a(1-»6) sont appelees dextrane- 
saccharases. Celles ci sont produites notamment par des bacteries de type 
Leuconostoc mesenteroides. 

d) La dextrane-saccharase de L. mesenteroides NRRL B- 
1299 a la particularity de produire, quant a elle, un dextrane hautement 
ramifie dont la majorite des ramifications sont de type a(1-»2). Utilisee en 
presence de saccharose et de maltose, molecule acceptrice de glucose, 
elie conduit a la formation de GOS presentant pour certains une liaison 
<x(1->2) a leur extremite non reductrice et pour d'autres des ramifications 
a(1^2) sur les residus intermediaires entre les extremites. A ce titre, ils 
resistent a la degradation par les enzymes (hydrolases) du tractus digestif 
superieur, chez Thomme et Panimal, et ne sont degrades que par les 
bactero'ides, benefiques a Porganisme. Un phenomene identique se produft 
au niveau de la peau, permettant d'envisager des applications en 
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cosmetologie, car c'est le desequilibre de la flore microbienne cutanee qui 
est a I'origine de nbmbreux problemes cosmetiques et dermatologiques. 
C'est en raison de ces caracteristiques qu'ils sont desigries ici par le terrhe 
GOS d'interet 

Dans i'ensemble du texte, ies polysaccharides synthetases par 
les glycosyltransferases selon I'invention sont soit des dextranes de haut 
poids moleculaire lorsque la reaction est realisee sans accepteur de 
glucose, soit des oligosides lorsque la reaction est realisee en presence 
d'accepteur de glucose tel le maltose ou risomaltose sans que cela soit 
necessairement specifie. En effet, la fonctionnalite de 1'enzyme est 
caracterisee par la nature. des liaisons glucose-glucose (a(1->6), a(1-»2)) 
ou autres et non par le poids moleculaire du polysaccharide synthetise. 

Les dextrane-saccharases de L mesenteroides trouvent deja 
de nombreuses applications dans I'industrie, et en particulier celles de la 
souche NRRL B-1299 pour lesquelles un precede de synthese des GOS 
presentant des ramifications a(1-»2) a ete decrit dans le brevet 
EP 0325 872 B1. 

Marguerite Dols et al. (2) ont montre que les GOS produits par 
les dextrane-saccharases de cette souche sont en fait un melange d'au 
moins trois families de molecules similaires different de fait par le nombre 
et le positionnement des ramifications de type a(1-»2), ce qui amene 
I'hypothese de I'existence de differentes activites enzymatiques de type 
glycosyltransfera.se dans cette souche bacterienne. 

Compte!"tenu de Tinteret industriel dans le domaine des 
25 aliments prebiotiques, en cosmetologie ou en pharmacie des GOS 
presentant des ramifications a(1-»2) et rappele ci-dessus, la presente 
invention vise a isoler et caracteriser une enzyme particuliere parmi celles 
produites par L mesenteroides NRRL B-1299 qui serait plus 
particulierement impliquee dans la synthese d'oligosides presentant les 
ramification a(1-»2). ^identification et la caracterisation d-une telle enzyme 
offrent I'avantage, d'une part, de fournir un precede de production uniforme 
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et reproductible des GOS d'interet et, d'autre part, d'identifier les 
caracteristiques essentielles de I'enzyme productrice de ces GOS d'interet, 
afin, le cas echeant, d'ameliorer les performances des produits de la 
reaction enzymatique en fonction de I'utilisation envisages 

Le probleme technique sous-tendu dans la presente invention 
etait ainsi de pouvoir disposer d'une enzyme et done des acides nucleiques 
isoles codant cette enzyme permettant la production amelioree de GOS a 
ramifications a(1-»2). 

La presente invention apporte une solution technique aux 
differentes questions evoqu£es ci-avant en fournissant une nouvelle 
dextrane-saccharase, appelee DSR-D codee par un gene dote d'une 
structure nouvelle et inattendue (dsrD) et capable de catalyser la synthese 
des glucanes ou des oligosaccharides contenant des ramifications a(1->2). 
Par structure nouvelle et inattendue, on entend le fait que I'organisation de 
la proteine differe de celle de toutes les autres glycosy transferases 
decrites a ce jour (1) et dont ie domaine catalytique est situe en amont d'un 
domaine de liaison au glucane, ce dernier constituant la partie carboxyiiq.ue 
de la proteine. 

Ainsi, la presente invention porte sur un polypeptide isole 
ayant une activite enzymatique de giycosyltransferase apte a former des 
dextranes presentant des ramifications a(1->2), caracterise en ce qu'il 
comprend au moins un domaine de liaison au glucane et un domaine a 
activite catalytique situe en aval du domaine de liaison au glucane. Par 
situe en aval, on entend le fait que la partie aminee de la sequence a 
activite catalytique ou Domaine catalytique est proximale de la partie 
carboxylique du domaine de liaison au glucane. Ces deux domaines 
peuvent etre immediatement contigus ou au contraire separes par une 
region variable. 

La giycosyltransferase selon {'invention comporte de 
preference un peptide signal. 



Dans un mode de realisation de l'invention, fa 
glycosyltransferase comprend deux domaines catalytiques situes de part et 
d'autre du domaine de liaison au glucane. 

La presence d'un domaine a activite catalytique dans la parfie 
carboxylique de I'enzyme est une caracteristique. essentielle de cette 
derniere dans sa capacite a former des liaisons a(1-»2) osidiques. En effet, 
comme !e montrent les experiences decrites ci-apres, la deletion de ce 
domaine dans une enzyme ayant au moins deux domaines catalytiques 
conduit a la production de glucanes ou d'oligosides ayant essentiellement 
des liaisons osidiques de type a(1->6) et depourvus de liaisons de type 
<x(1-»2). 

L'analyse comparative des differentes glycosyltransferases 
incluant les dextrane-saccharases a mis en evidence un tres fort degre de 
conservation de ieur domaine catalytique. 

Le domaine catalytique situe dans la partie carboxy-terminale 
de la glycosyltransferase sefon Tinvention a une sequence presentant au 
moins 44 % d'identite et 55 % de similarity avec les domaines catalytiques 
des autres glycosyltransferases analysees. En particulier, le domaine 
catalytique dans la partie carboxylique de la glycosyltransferase selon 
Invention a au moins 65 % d'identite et au moins 80 % de similarite avec la 
sequence ID No. 1 representee dans la figure 7, la triade catalytique 
Asp/Glu/Asp en positions respectives 2210/2248/2322 etant conservee. 

Dans i'ensemble du texte, on entend par X% de similarite par 
rapport a une sequence de reference le fait que X % des acides amines 
sont identiques bu modifies par substitution conservative telle que definie 
dans le logiciel d'alignement des sequences d'acides amines ClustaiW 
(.http:///bioweb.pasteur.f r/docs/doc-qensoft/clustalw//^ et que (100-X) % 
peuvent etre deletes, substitues par d'autres amino-acides, ou encore que 
(100-X) % peuvent etre ajoutes a la sequence de reference. 
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Une structure prirnaire particuliere de t'enzyme selon 
rinvention est representee dans la sequence ID No. 2 qui represente une 
sequence de 2835 acides amines d'une dextrarie-saccharase de L. 
mesenieroides B1299. 

5 Cette dextrane-saccharase, nommee DSR-D, possede 

comme la plupart des glycosyltransferases et des dextrane-saccharases 
une sequence signal, une region variable faiblement conservee, un 
domaine catalytique hautement conserve (CD1), un domaine de liaison au 
glucane (GBD) et un deuxieme domaine catalytique (CD2) dans la partie 

10 carboxylique de la proteine. DSR-D est la premiere glycosyltransferase 
anaiysee et presentant deux domaines catalytiques, dans la configuration 
presentee dans la figure 1 b). C'est egalement la premiere 
glycosyltransferase dont un domaine catalytique est situe dans la partie 
carboxylique de la proteine. 

1 5 La comparaison et I'analyse de la sequence de DSR-D avec 

les sequences des glycosyltransferases ou des dextrane-saccharases deja 
decrites (1), ainsi que les moyens utilises ^ cette fin sont indiques dans 
I'exemple 2 detaille ci-apres. II y apparaTt clairement que si I'existence de 
deux domaines catalytiques differencie substantiellement DSR-D des 

20 autres enzymes, en revanche les sequences desdits domaines sont 
substantiellement conservees. En particulier, les acides amines 
necessaires a I'activite catalytique sont conserves dans le deuxieme 
domaine catalytique, a savoir la triade Asp/Glu/Asp situee aux positions 
respectives 2210/2248/2322 de la sequence ID No. 2, representee dans la 

25 figure 8. 

Ainsi, rinvention porte egalement sur tout polypeptide isole 
ayant une activite catalytique de glycosylstransferase apte a former des 
dextranes ou des oligosaccharides ayant des ramifications a(1-*2) tei 
qu'obtenu par modification, substitution, insertion ou deletion de sequences 
30 d'amino-acides mais comportant des sequences presentant au moins 80 % 
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Une structure primaire particuliere de Penzyme selon Pinvention est 
representee dans -la sequence ID No. 2 qui represente une sequence de 
2835 acides amines d'une dextrane-saccharase de L mesenteroides B1299. 
5 Cette; dextrane-saccharase, nommee DSR-D, possede comme la 

plupart des glycosyltransferases et des dextrane-saccharases une sequence 
signal, une region variable faiblement conservee, un domaine catalytique 
hautement conserve (CD1), un domaine de liaison au glucane (GBD) et un 
deuxieme domaine catalytique (CD2) dans la partie carboxyh'que de la proteine. 
10 DSR-D est la premiere gly cosy transferase analysee et presentant deux domaines 

catalytlques, dans la configuration presentee dans la figure 1 b). C'est egalement 
la premiere glycosyltransferase dont un domaine catalytique est situe dans la 
partie carboxylique de la proteine. 

La figure 1b fait apparaftre egalement que le domaine de liaison au 
15 glucane est sensiblement plus long que celui decrit precedemment pour les 

dextranes saccharases connues ; ainsi, une autre caracteristique des enzymes 
selon Pinvention est la taille de ce domaine qui est superieur a 500 amino-acides. 

La comparaison et {'analyse de la sequence de DSR-D avec les 
sequences des glycosyltransferases ou des dextrane-saccharases deja decrites 
20 (1), ainsi que les moyens utilises a cette fin sont indiques dans I'exemple 2 detailie 

ci-apres. II y apparatt clairement que si I'existence de deux domaines catalytiques 
differencie ' substantiellement DSR-D des autres enzymes, en revanche les 
sequences desdits domaines sont substantiellement conservees. En particulier, 
les acides amines' necessaires a Pactivite catalytique sont conserves dans le 
25 deuxieme domaine ; catalytique, a savoir la triade Asp/Glu/Asp situee aux positions 

respectives 2210/2248/2322 de la sequence ID No. 2, representee dans la 
figure 8. 

Ainsi, Pinvention porte egalement sur tout polypeptide isole 
ayant une activite catalytique de glycosylstransferase apte a former des 
30 dextranes ou des oligosaccharides ayant des ramifications a(1-»2) tel 
qu'obtenu par modification, substitution, insertion ou deletion de sequences 
d'amino-acides mais comportant des sequences presentant au moins 80 % 
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et de preference au moins 90 % de similarite avec les sequences suivantes 
de la sequence ID No. 2 : 

423-439 2120-2138 
478-501 2161-2184 
5 519-539 2202-2214 

560-571 2243-2250 
631 -645 2315-2322 
1014-1021 2689-2696 

10 De fason preferee, enfin, un polypeptide a activite catalytique 

selon Tinvention contient les acides amines suivants : 
W en positions 425 et 21 22, 
E en positions 430, 565 et 2127, 2248 
D en positions 487, 489, 527, 638, 2170, 2172, 2210 et 
15 2322, 

H en position 637 et 2321 
Q en position 1019 et 2694. 
Les polypeptides a activite de glycosyltransferases aptes a 
former des liaisons osidiques a(1-»2) peuvent se presenter sous forme 
20 isolee, ou au contraire integres dans une proteine plus large, comme par 
exemple une proteine de fusion. II peut etre en effet avantageux d'inciure 
des sequences presentant une autre fonction, comme par exemple une 
sequence etiquette specifique d'un ligand permettant d'en faciliter la 
purification. Ces sequences etiquettes peuvent etre du type GST 
25 (glutathion-S-Transferase), Inteine - CBD (Chitine-Binding Domaine), 
(commercialise par New England Biolabs, http://ww.neb.com), MBD 
(Maltose Binding Domain), polypeptides contenant des residus histidine 
contigus permettant de faciliter la purification du polypeptide avec iequei il 
est fusionne. L'homme du metier peut concevoir toute autre proteine de 
30 fusion permettant d'associer la fonction de la DSR-D de Tinvention avec 
une autre fonction, comme par exemple, et sans etre limitatif, une 



sequence augmentant la stabilite de I'enzyme produite par expression dans 
un hote recombinant ou une sequence apte a augmenter la specrficite ou 
i'efficacite d'action de cette enzyme, ou une sequence visant a 'associer 
une autre activite enzymatique connexe. 

De telles proteines de fusion font egalement partie de 
rinvention des lors iqu'elies contiennent le domaine CD 2 et le site de liaison 
au glucane. De la meme fafon, les fragments de la sequence ID No. 2, 
comprenant au moins la sequence ID No. 1 et le domaine de liaison au 
glucane, seuls ou mtegres dans une sequence polypeptidique plus large 
font partie de I'invWntion, a partir du moment 0C1 I'activite enzymatique de 
dextrane-saccharase est conservee. 

Les variants des sequences polypeptidiques definies ci- 
dessus font egalement partie de rinvention. Outre les polypeptides 
obtenus par substitution conservative des acides amines telle que definie 
plus haut, les variants incluent des polypeptides dont I'activite enzymatique 
est amelioree par exemple par mutagenese dirigee ou aieatoire, par 
evolution moleculaire, ou par duplication du domaine catalytique CD 2 . 

La structure particuliere de cette enzyme identtfiee dans la 
presente invention resuite d'un processus comprenant : 

a) Identification et Tisolement de la dextrane-saccharase de L 
mesenteroldes catafysant la production des GOS d'interSt portant les 
ramifications a(1-»2) ; 

b) le sequengage de fragments de Tenzyme ; 

c) la synthese d'amorces d'amplification aptes a amplifier le 
gene correspondant de la souche productrice ou des fragments de ceux-ci ; 

d) le sequengage des fragments amplifies ; 

e) le clonage dans des vecteurs specifiques et leur expression 
dans des hotes appropries.- 

Les modalites du procede mis en oeuvre sont detaillees dans 
la partie experimentale ci-apres. La premiere etape consiste en une 
separation des proteines par electrophorese en gel de polyacrylamide, et 
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identification des bandes presentant I'activite de dextrane saccharase par 
une reaction enzymatique in situ en presence de substrat et d'accepteur 
La nature des GOS synthases est ensuite identifiee sur chaque bande par 
analyse HPLC seion les methodes decrites dans (1). Le temps de retention 
des oiigosides en HPLC depend de la nature et de Torganisation de leurs 
liaisons osidiques. II est possible en particulier de distinguer ceux 
constitutes de residus lies en ct(1->6), en a(W6) avec une ramification 
a (U2) a Pextremite non reductrice de la molecule, et ceux recherches 
composes d'une chaine lineaire a(1-*6) avec des ramifications a(U2). 

Les inventeurs ont , done . isole et identifie la dextrane- 
saccharase de L mesenteroides NRRL B-1299 productrice des GOS 
d'interet 

Un procede d'ingenierie reverse mis en oeuvre dans les 
etapes b) a e) ci-dessus a permis ensuite de fournir la sequence 
nucieotidique codant Penzyme et permettant de la produire en quantite 
industrielle et le cas echeant de la modifier, d'en ameliorer ses 
performances par les techniques a la disposition de Phomme du metier. A 
titre d'exemple, on peut citer la mutagenese dirigee ou aieatoire, ou 
revolution moleculaire (DNA shuffling) (3). 

Un autre aspect de Pinvention porte sur une molecule d'acide 
nucleique isolee codant une enzyme a activite glycosyitransferase apte a 
former des dextranes ou des oiigosides presentant des ramifications 
a (1_^2) et comprenant au moins une sequence codant un domaine de 
liaison au giucane, et au moins une sequence nucleotidique codant un 
domaine catalytique situe en 3* de la precedente, ladite sequence codant 
un domaine catalytique ayant au moins 50 % et de preference au moins 
70 % de similarity avec la sequence ID No. 3 representee dans la figure 9. 

Par similarity on entend le fait que, pour un meme cadre de 
lecture, un triplet donne est traduit par le meme acide amine. Ce terme 
inclut done les modifications de bases resultant de la degenerescence du 
code genetique. 
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Le pourcentage de similarity est determine en comparant une 
sequence donnee avec la sequence de reference. Lorsque celles-ci sont de 
longueurs differentes, le pourcentage de similarity est base sur le 
pourcentage de nucleotides de la sequence la plus courte similaires a ceux 
de la sequence la plus longue. 

Le degre de similarity peut etre determine 
conventionnellement par utilisation de logiciels tels le ClustalW (Thompson 
et al., Nucleic Acids Research 22 (1994), 4673-4680) distribues par Julie 
Thompson rrhompson@EMBL-Heidelbera.DE) et Toby Gibson 
(Gibson@EMBL-Heidelberg.DR du Laboratoire Europeen de Biologie 
Moteculaire, Meyerhosfstrasse 1 , D 69117 Heidelberg, Germany. 
ClustalW peut aussi etre charge a partir de piusieurs sites web incluant 
IGBMC (institut de Genetique et de Biologie Moleculaire et Cellulaire, 
B.P. 163, 67404 illkirch cedex France; ftp://ftp-iabmc.u-straba.fr/puh/^ et 
EBI (ftp://ftp.ebi.ac.uk/pub/software/^ et tous ies sites renvoyant a Plnstitut 
de Bioinformatique, Wellcome Trust Genome Campus, Hinxton, Cambridge 
CB10 1SD, UK). 

Les acides nucleiques isoles selon I'invention peuvent 
comprendre notamment d'autres sequences destinees a ameliorer 
I'expression et/ou I'activite de I'enzyme produite. 

II peut s'agir £ titre d^xemple : 

- des sequences codant une sequence signal pour leur 

secretion ; 

- une duplication de la sequence codant le domaine 
catalytique CD 2 . 

De fagon preferee, un acide nucleique isole selon I'invention 

comprend : 

a) deux sequences codant des domaines catalytiques ayant 
au moins 50 %, et de preference au moins 80 % de similarity avec la 
sequence ID n° 3 ; 
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b) une sequence codant le domaine de liaison au glucane, 
cette derniere etant situee de preference entre les deux sequences en a). 

Un acide nucleique selon i'invention pourra comprendre en 

outre : 

5 - un promoteur, apte a son expression .dans une cellule hote 

choisie, 

- une sequence codant un peptide signal, et/ou 

- une ou des sequences variables, 

cette ou ces sequence(s) etant toutes situees en partie 5' des 
10 sequences codant le ou les domaine(s) catalytique(s). 

Un exemple particulier d'un acide nucleique isole selon 
i'invention comprend plus particuiierement : 

a) la sequence ID No. 4 representee dans la figure 10, 

b) une sequence presentant au moins 80 % de similarity avec 

15 la sequence ID n° 4, ou 

c) ie brin complementaire de la sequence a) ou b), ou 

d) une sequence hybridant a), b) ou c). 

L'hybridation en d) est realisee en conditions standard, et de 
preference en conditions stringentes. Par hybridation en condition 

20 stringente, on entend le fait qu'il existe une identite de sequences d'au 
moins 80 % de la sequence que Ton cherche a hybrider et de preference 
une identite d T au moins 90 % de la sequence que Ton cherche a hybrider, 
dans des conditions decrites par exemple dans Sambrook et al. (3 6me 
edition, 2001, Coll. Spring Harbour, Laboratory Press, Coll. Spring 

25 Harbour, NY). 

L'invention porte egalement sur un gene codant une dextrane- 
saccharase apte a former au moins 15.% de ramifications a(1-»2). Outre la 
sequence codante, le gene comprend les sequences permettant ^initiation 
de la transcription ainsi que les sequences permettant Tattachement de 

30 TARN messager au ribosome (RBS). La sequence ID No. 5 representee 
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dans la figure 11 represents une structure du gene tel qu'isole de L 
mesenteroTdes NRRL B-1299. 

Les nucleotides en amont de PATG- d'initiation tie la traduction 
sont numerates 1 a 232. 

On peut identifier ('existence d'une sequence RBS entre les 
nucleotides 218 et 223, ainsi que les sequences consensus - 35 et - 10 
situees entre les nucleotides 82 et 86 (TTGAA), d'une part et 100 et 105 
(ATAAT), d'autre part. 

Toute sequence d'acide nucteique hybridable avec I'ADN de 
la sequence ID No. 4 ou son briri complementaire est susceptible' de coder 
une enzyme ayant les proprietes et caracteristiques de I'enzyme selon 
I'invention. Ceci s'applique tant aux sequences naturelles existant dans 
d'autres micrc-organismes que L. mesenteroides NRRL-1299 et isolees de 
banques genomiques de micro-organismes, que cedes preparees par genie 
1 5 genetique ou par synthese chimique. 

En particulier, les sequences en amont de i'ATG d'initiation de 
la traduction et necessaires a I'expression de la proteine peuvent etre 
avantageusement substitutes par des sequences d'initiation de la. 
transcription et/ou de fixation au ribosome adaptes au systeme 
20 d'expression choisi pour fa sequence codante. 

Une sequence d'acides nucleiques susceptible de s'hybrider 
en condition stringente avec I'acide nucleique isole selon I'invention 
comprend egalement des fragments, des derives, ou des variants alleliques 
de la sequence d'acides nucleiques selon I'invention qui code urte proteine 
ayant I'activite enzymatique decrite ci-avant. Ainsi, les fragments sont 
definis comme des fragments de molecules d'acides nucleiques 
suffisamment longs pour coder une proteine ayant conserve son activtte 
enzymatique. Celle-ci inclut aussi bien des fragments depourvus de la 
sequence codaht le peptide signal responsable de la secretion de la 
30 proteine. 
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Le terme "derive" signifie sequence, differente de la sequence 
origineile, a une ou plusieurs positions, mais presentant un haut degre de 
similarity avec ces sequences. Dans ce contexte, simiiarite signifie une 
identite d'au moins 80 % des nucleotides, et de preference d'au moins 

5 90 % avec la sequence origineile. Les modifications dans ce cas portent 
sur des deletions, substitutions, insertions ou recombinaisons, a partir du 
moment olj I'enzyme codee par ces sequences homoiogues presentent 
Pactivite enzymatique des polypeptides selon invention. 

Les sequences decides nucleiques selon invention telles que 

10 decrites ci-dessus et qualifiees de derives de ces molecules telles que 
definies ci-avant, sont generalement cSes variants exe^ant ia meme 
fonction biologique. Ces variations peuvent etre des variations natureiles, 
notamment celles observables d'une espece a Pautre et resultant d'une 
variability inter espece ou au contraire etre introduces par le moyen d'une 

15 mutagenese dirigee, aleatoire ou par DNA Shuffling (evolution moleculaire). 

De la meme fa$on, font partie de I'invention les acides 
nucleiques isoles codant une glycosyltransferase apte a catalyser la 
synthese de dextrane ou ^oligosaccharide portant au moins 20 % et de 
preference au moins 30 % de ramifications de type a(1->2) et obtenus par 

20 evolution moleculaire (DNA shuffling) et comprenant : 

- une etape de modification aleatoire d'une des sequences 
decrites precedemment et, en particulier, des sequences ID No. 3 et 4 et 
d'etablissement de variants ; 

- une etape d'expression de ces sequences modifiees dans 
25 une cellule hote appropriee, un hote abritant un variant ; 

- une etape de criblage des hotes exprimant une enzyme apte 
a former plus de 20 % et de preference plus de 30 % de liaisons <x(1 2) 
sur un substrat approprie et une etape d'isoiement du ou des genes 
ameliores. 

30 Un acide nucleique isole selon ('invention pourra egalement 

comprendre : 
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a) une sequence ayant au moins 80 % de similarity avec la 
sequence codant une dextrane-saccharase exprimee par le piasmide pCR- 
T7-dsr D dans £ coli depose a la CNCM le 15 mars 2001 sous le numero I- 
2649 (E co// TM 109 [pCR-T7-cfe/D]), ou 

b) une sequence complementaire de la sequence en a). 
L'invention porte egalement sur les fragments decides 

nucleiques tels que definis ci-dessus, hybridables avec la sequen- 
ce ID No. 4, et utilisables comme sondes d'hybridation pour la detection de 
sequences codant des enzymes selon l'invention. Ces fragments peuvent 
etre prepares par toutes ies techniques fconnues de I'homme du metier. 

Outre les sondes ^hybridation, des amorces d'amplification 
font egalement partie de 1'invention. Lesdites amorces sont des fragments 
hybridables avec la SEQ ID No. 4 ou avec son brin complementaire et 
permettent Pamplification de sequences specifiques codant des dextrane- 
saccharases presentes dans un organisme procaryote ou eucaryote, 
animal ou vegetal. 

{-'utilisation de telles amorces d'amplification permet la mise 
en oeuvre d'un procede ^identification de {'existence eventuelle d'un gene 
codant une enzyme apte a catalyser la synthese de GOS avec des 
ramifications a(1-*2) dans un tel organisme, ledit procede faisant 
egalement partie de Tinvention. 

^invention porte egalement sur des vecteurs d'expression 
comprenant uh acide nucleique tel que decrit ci-avant, sous le controle de ' 
sequence permetfant son expression et de preference son excretion dans 
des cellules procaryotes ou eucaryotes.' Par cellules procaryotes, on " 
choisira de preference des bacteries choisies dans un groupe comprenant 
E. co//, les Lactococcus, les Bacillus, les Leuconostoc. Par cellules 
eucaryotes, on choisira de preference les eucaryotes choisis dans un 
groupe contenant ies levures, les champignons ou les vegetaux. 

Le vecteur comprend un promoteur adapte a Texpression de 
i'acide nucleique isole selon Invention dans le systeme d'expression choisi. 
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A titre d'exempie, le promoteur du bacteriophage T7 pourrait etre 
avantageusement choisi pour une expression dans E. ColL 

L'invention porte egalement sur les cellules hotes, procaryotes 
ou eucaryotes, transformees par un acide nucleique selon l'invention de 

5 preference compris dans un vecteur d'expresslon portant un promoteur, 
adapte a une expression dans Ies cellules hotes choisies. Les cellules 
transformees sont choisies dans le groupe des bacteries a Gram- telle E. 
co//, ou dans le groupe des bact§ries a Gram* telles Lactococcus, Bacillus, 
Leuconostoc ou parmi les eucaryotes dans un groupe comprenant les 

10 ievures ou les champignons, ou ies vegetaux. 

Un exemple particulier d'une cellule transformer selon 
l'invention est la souche E, coli porteuse d'un plasmide appete PCR- 
T7dsrD et porteuf de la sequence ID No. 4 sous le controle du promoteur 
du bacteriophage T7 et deposee £ la CNCM le 15 mars 2001 sous le 

15 numero 1-2649. 

La presente invention, par ailleurs, porte sur un procede de 
production d'une glycosyltransferase apte a former des dextranes ou des 
oligosides pr£sentant au moins 15 % et de preference au moins 20 % de 
ramifications de type cx(1-h>2) osidiques et comprenant : 

20 a) Tinsertion d'un acide nucleique ou d'un vecteur tel que 

decrit precedernment dans une cellule hote apte a I'exprimer et de 
preference a secreter la glycosyltransferase ; 

b) la caracterisation de I'activite enzymatique recherchee par 
toutes les methodes accessibles ^ Phomme du metier ; 

25 c) la purification de Tenzyme a partir d'un extrait cellulaire. 

Par methode de caracterisation de i'activite enzymatique 
connue de Phomme du metier, on comprendra ies methodes decrites dans 
la iitterature par exemple dans la reference (2) ainsi que de nouvelles 
methodes susceptibles d'etre mises au point permettant d'identifier et de 

30 discriminer les glucooligosaccharides pr^sentant le taux de ramification 
recherche. 
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II s'agit en fait de tout procede de criblage permettant 
d'identifier la presence de ramifications a(l-*2) dans un GOS. 

Atitre d'exemple, seroht util&ees : ' 

- rHPLC pour leque! la migration des GOS varie en fonction 
de la nature et le position nement des ramifications, notamment ceux ayant 
le lien a(1->2) a Textremite reductrice et ceux ayant ce lien sur I'avant- 
dernier glucose, et/ou 

- la Resonnance magnetique nucleaire (RMN), 

- Existence d'une reaction positive avec des anticorps 
monodonaux specifiques des liaisons a(1-»2)' sur I'extremite reductrice 
et/ou d'anticorps monodonaux specifiques des liaisons a(1->2) sur I'avant- 
dernier glucose du GOS. 

L'invention porte egalement sur un procede d'obtention d'une 
glycosyltransferase apte a presenter des oligosides ou des dextranes 
presentant un taux de ramification a(1->2) superieur a 15% et de 
preference superieur a 30% de la totalite des liaisons osidiques et 
comprenant une etape de modification de la sequence ID No. 4 par 
addition, deletion, mutation a partir du moment ou : 

- le cadre de lecture n'est pas modifie, et 

- les acides amines suivants sont conserves apres traduction : 

W en positions 425 ou 2122, code par le triplet TGG en 
positions 1273 et 6364, 

E en positions 430, 565, 2127 et 2248 codes par les 
triplets GAA en positions 1288, 1693, 6379 et 6742 respectivement, 

D en positions 487, 489, 527, 638,' 2170 et 2210 codes par * 
les triplets GAT en positions 1459, 1465, 1579, 1912, 6508 et 6628 
respectivement, 

D en positions 2172 et 2322 codes par les triplets GAT en 
positions 6514 et 6964, 

H en position 637 et 2321, codes respectivement par les 
triplets CAT en position 1 909 et CAC en position 6961 , 
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Q en positions 1019 et 2694 codes respectivement par les 

triplets CAA (3055) et CAG (8080). 

' Un procede de production d'une glycosyltransferase selon 
['invention ayant les memes caracteristiques que ci-avant peut egalement 
5 comprendre : 

- une etape de modification aleatoire de la sequence ID n° 4 
et d'etabiissement d'une banque de variants, 

- une etape d'expression de ces sequences modifiees dans 
une cellule hote appropriee, un hote abritant un variant, 

10 ' - une etape de cribiage des hotes exprimant une enzyme apte 

a former plus de 15 % et de preference plus de 30 % de liaison a(1 -» 2) 
sur un substrat approprie, 

- une etape d'isolement du ou des gdnes ameliores. 

Dans un autre mode de realisation de Invention, le procede 

15 consiste a modifier la sequence ID No. 3 par duplication de tout ou partie 
du domaine catalytique CD 2 . 

On pourra comprendre que les proceeds ci-dessus visent non 
seulement a Tobtention d'une glycosyltransferase apte a former des 
oligosides presentant un taux de ramification a(1 2) constant et 

20 reproductible, superieur a 15 % des ramifications totales mais egalement a 
ameliorer le taux de ramification a(1 2) dans Tobjectif de modifier les 
proprietes des oligosides obtenus dans le sens d'une amelioration de ieurs 
proprietes dietetiques ou de leur capacite a maintenir ou retablir la flore 
bacterienne associee a certains organes du corps humain ou animal. . 

25 La presente invention porte enfin sur les glycosyltransferases 

susceptibles d'etre obtenues par un procede cite ci-avant et apte a former 
au moins 15 % et de preference au moins 30 % de ramifications de type 
a(1 2) osidiques dans des glucooligosaccharides. 

Uinvention porte enfin sur Putiiisation des glycosyltransferases 

30 selon Tinvention ainsi que celles susceptibles d'etre obtenues par les 
procedes ci-dessus, dans la fabrication d'une composition a effet 
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prebiotique ou dans fa fabrication d'une composition dermatologique, 
cosmetique ou pharmaceutique. 

A titre d'exempies non limifatifs, on peut'citer Amelioration du 
transit intestinal chez ies animaux et chez I'homme, Amelioration de 
1'assimiiation du calcium et/ou du magnesium et des mineraux en general, 
la prevention du cancer du colon, la prevention ou le traitement des 
affections de ia peau telles Tacne, Ies pellicules, Ies odeurs corporelies. 

L'avahtage des polypeptides et des acides nucleiques codant 
ces polypeptides selon Tinvention se situe non £eulement au niveau de 
Amelioration en terme de qualite, de rendement, de reproductible, et de 
prix de , revient* des glycosyltransferases aptes a former des 
oligosaccharides avec des ramifications de type ct(1 -> 2) osidiques mais 
egalement dans la perspective de produire de nouvelles enzymes dont la 
fonctionnalite est amelioree. 

Les figures, exemples et description detailles ci-apres 
permettent, sans la limiter, d'illustrer les caracteristiques et les 
fonctionnalites particulieres des polypeptides a activite enzymatique et des 
sequences codant ceux-ci. Elles permettent en particulier d'illustrer de- 
fagon plus precise la specificite du domaine cataiytique present dans la 
partie carboxylique de I'enzyme selon {'invention et son evolution potentieile 
pour I'obtention d'enzymes ameliorees. 

LEGEMDE DES FIGURES : 

Egurel: structure des glycosyltransferases : la figure' 1a) ' 
represente ia structure des glycosyltransferases"" et des dextrane- 
saccharases decrites dans la litterature (1). La figure 1b) represente la 
structure de la glycosyltransferase selon Invention. A : peptide signal ; B : 
region variable, C : domaine cataiytique, D : domaine de liaison au glucane 
(GBD). 

figure 2 . : schema recapitulatif de la methode de clonage de la 
sequence nucleotidique codant une glycosyltransferase selon Invention a 
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I'aide d'une bibliotheque genomique en utilisant une sonde PCR decrite 
dans le tableau I et une sonde Hindlll/EcoRV respectivement. 

Figure 3 : comparaison des sequences signal de differentes 
glycosyltransferases de L mesenteroides. Les acides amines conserves 
5 sont en gras. DSR-B : L mesenteroides B-1299 (4) ; DSR-S : L 
mesenteroides B-512F (5) ; ASR: L mesenteroides B-1355 (6). 

Figure 4 : alignement des 1 1 sequences repetees de Penzyme 
DSR-D et observees dans La zone variable. 

Figure 5 : alignement des sequences conservees du domaine 

10 catalytique. 

- Bloc A : acides amines essenttels de ia partie N-terminale du 
domaine catalytique ; 

- Bloc B : acides amines de la partie du domaine catalytique 
de liaison au saccharose ; 

15 - Blocs C, D, E : blocs contenant les trois residus d'acides 

amines impliques dans la triade catalytique (6) ; 

- Bloc F : sequence contenant la glutamine 937 de GTF-l 
etudtee par Monchois et al. (7). 

Les acides amines entierement conserves sont indiques en 
20 gras, ** :■ substitutions conservatives ; * : substitutions semi-conservatives ; 
— : GAP. Les numerotations sont ceiles de la sequence ID No. 2. 

Figure 6 : caracterisation HPLC des produits synthetises par 
Tenzyme recombinarite DSR-D. 

6A : analyse en HPLC des glucooligosaccharides obtenus 
25 avec les dextrane-saccharases de L mesenteroides NRLL B-1299. 

6B : analyse HPLC des glucooligosaccharides obtenus par la 
DSR-D recombinante. ^identification des differents pics suivants : 
1 : fructose, 
2 : maltose, 
30 3 : sucrose, 

4 : panose, 
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5:R4 t 
6 : OD4, 

7:R5, • 
8 : OD5, - 

5 A, B, C : pics non identifies. 

6C : DSR-D recombinante deletee du domaine catalytique de 
ia partie carboxylique de I'enzyme (A DSR-D). 

Figure 7 : sequence peptidique de CD 2 . ...... 

10 Figure 8 : sequence peptidique de DSR-D. 

Figure 9 : sequence nucleotidique codant CD 2 . 
Figure 10 : sequence nucleotidique codant DSR-D. 
Figure 1,1 : sequence nucleotidique d'un gene codant DSR-D. 
MATERIELS FT METHODES : 

15 DSouches bacterie nnes. pfasmides et conditions Ha 

croissance : 

Toutes les souches sont conservees a -80°C dans des tubes contenant 
15%de glycerol (v/v). 

Leuconostoc mesentemides B-1299 (NRRL, Peoria, USA) est cultivee a 

27°C, sous agitation (200 RPM) sur milieu standard (saccharose 40 g.r 1 , 

phosphate potassium 20 g.r 1 , extrait de levure 20 g.r 1 , MgS0 4 -7H 2 0 0.2 

g.r 1 . MnSO^HzO'O.OIg.r 1 , NaCI 0.01g:r\ CaCI 2 0.02 g.r 1 , FeS0 4 -7H 2 0 

0.01 g.r 1 ), le pH etant ajuste a 6,9. ■ 

Escherichia coii DH5ct et JM109 ont ete cultivees siir milieu LB (Luria- 
25 Bertani). ■' ....... .. ....... 

La selection des clones recombinants de pUC18 ou pGEM-T Easy est 
effectuee sur boites LB-agar supplements avec 100 jjg.mr 1 d'ampicilline, 
0.5 mM d'isopropyl-p-D-thiogalactopyranoside (IPTG) et 40 Mg.m!" 1 de 5- 
bromo-4.chloro-34ndolyl-p-D.galactopyranoside (X-gal). Des cellules d' E. 
coii TOP 10 ont ete utilisee pour le systeme de clonage de produit PCR 
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TOPO Cloning (Invitrogen), et cultivees sur milieu LB supplements de 
kanamycine a la concentration de 50 pg.mf 1 . m . 

En ce qui concerne Expression de dsrO, ie kit de clonage ECHO Cloning 
System (Invitrogen) permet le clonage d'un produit PCR dans un vecteur 

5 donneur (pUNIA/5-His-TOPO), precedent une etape de recombinaison 
avec un vecteur accepteur adapte (pCR-T7-E). Ce systeme requiert des 
cellules E coli PYR1, TOP 10 et BL21(DE3)pLysS cultivees sur milieu LB 
supplements de 50 pg.ml* 1 de kanamycine, ainsi que de 34pg.mr 1 de 
chloramphenicol pour la souche BL21 (DE3)pLysS. 

10 Les plasmides p0C18 digenls et dephosphoryles proviennent 

de Pharmacia (Amersham Pharmacia Biotech) et ont ete utilises pour ia 
constitution de banque d'ADN gSnomique de L mesenteroides B-1299. Le 
clonage de produit PCR a, quant a lui, necessite I'emploi de piasmide 
pGEM-T Easy (Promega), et pour les fragments de plus de 2 kbp de 

1 5 piasmide TOPO-XL (Invitrogen) 

2) Electrophorese sur ael localisation et caracterisation de 

I'enzvme : 

Apres une culture de L mesenteroides B-1299 de 7h t le 
milieu est centrifuge (7000 RPM, 4°C, 30 min) et les cellules, ou 90% de 

20 i'activite enzymatique se retrouve, sont concentrees 10 fois dans une 
solution de tampon acetate (20 mM, pH 5,4), chauffees 5 minutes a 95°C 
en presence de solution de denaturaiion (Tris HCI 62.5 mM, SDS 4%, uree 
6M, bleu de bromophenol 0.01% et p-mercaptoethanol 200 mM). 300 pi du 
melange est depose sur gel de polyacrylamide a 7%. Apres migration, les 

25 proteines 'totales sont reveleies par coloration au noir amido, alors que 
Tactivite dextrane-saccharase est detectee par coloration du polymere au 
reactif de Schiff apres synthese de dextrane in- situ. Les bandes 
correspondant a des dextrane-saccharases actives sont excisees et 
incubees separement dans 2 ml de solution d'acetate de sodium 20 mM pH 

30 5.4 contenant 100gX 1 de saccharose et 50 g.l* 1 de maltose. Apres 
consommation totale du saccharose, la reaction est arretee par chauffage a 
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95°C pendant 5 minutes, et !e milieu reactionnel est centrifuge 5 minutes a 
15000g afin d'eliminer ie dextrane insoluble. Les echantillons sont analyses 
par chromatographic en phase inverse ( cbionhe C18, Ultrasep 100; 6 pm, 
5x300mm, Bishoff Chromatography) en utilisant de I'eau ultrapure comme 
5 eluant, a un debit constant de 0.5ml.min~ 1 . Les oligosaccharides "sont 
separes pendaht 30 minutes a temperature ambiante, et detectes par 
refractometrie. Le sequen?age peptidique a ete realisee sur les barides 
proteiques selectionnees par le Laboratoire de Mictosequengage, (nstitut 
Pasteur, Paris. ; 

10 3) Techniques de bioloaie rholeculaire utilisee ': 

La' purification du plasmide d' E. coliet la purification du DNA 
genomique de L mesenteroides ont ete reaiisees en utilisation 
respectivement QiaPrep Spin Plasmid kit et le Cell Culture DNA maxi kit 
(QiaGen). Les procedes d'amplification et de clonage ont ete realises en 
15 utilisant les techniques standards (Sambrook et al. 2001, voir supra). Les 
enzymes de restriction et de modification proviennent des societes 
commercials New England Biolabs ou Gibco BRL et utilisees selon les 
protocoles des fabricants. 

La PCR est realisee avec des amorces choisies sur la base 
20 de la sequence proteique obtenue sur une bande de gel d ! electrophorese 
isolee (voir plus haut, electrophorese sur gel et localisation de I'enzyme). 
Deux peptides ont ete selectionnes : 

- 29-FYFESGK, et " ' 

- 2^-FESQNNNP ' * * - 

25 et utilises pour synthesiser des oligonucleotides degeneres et indiques'dans " 
le tableau I ci-dessous. 

Dans ce tableau ou les numerotations sont celies de la 
figure 10, il apparaTt que la presence d'un residu serine dans les deux 
peptides necessite la synthese de deux amorces pour chaque peptide dans 
30 la mesure ou la serine peut etre codee par six codons differents. ECHO^iir 
et ECHO-inv sont les amorces utilisees ayant permis i*ampIification de dsrD 
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par PCR pour son clonage dans le systeme d'expression Echo Cloning 
(Invitrogen). 





TAR! FAU 1 




Designation 


Description 


Sequence 5'-3' 


29-dir1 


FYFESGK 


TT(C/T)TA(CyT)TT(C/T)GA(A/G)rC/»GG(C/G)AA(A/G) . 


29-dir2 




TTf*r mTA fr mTTYP/TlGAfA/GYAGCGGfC/G) AA(A/G) 


24-inv1 


FESQNMNP 


(T/G)GG(G/A)TT(G/A)TT(G/A)TTTTG 7G/*(T/C)TCAAA 


24-inv2 




(T/G)GG(G/A)TT(G/A)TT(G/A)TTTTGGCr(T/C)TCAAA 


IPCR-rev 


sequence nt 
5769-5798 


CCCTTTACAAGCTGATTTTGCTTATCTGCG 


IPCR-dir 


sequence nt 
8311-8342 


GGGTCAAATCCTTACTATACATTGTCACACGG 


ECHO-dir 


sequence nt -6 - 
39 

sequence nt 
8457-8504 


AGTTGTATGAGAGACATGAGGGTAATTTGTGACCGTAAAAAATTG 


ECHCMnv 


ATTTGAGGTAATGTTGATTTATCACCATCAAGCTTGAAATATTGACC 



PCR ; 

La PCR est realisee en utifisant un thermocycleur Perkin- 
10 Elmer, modele 2400, et en utifisant 50 nanogrammes de I'ADN genomique. 
Les quantites d'amorces utiiisees sont de 10 pM de 29-Dirl et de 24-Inv1. 
Au melange reactionnel, sont ajoutes 250 pM de chaque desoxynucleotide 
triphosphate, et la Taq Polymerase. 

Apres une amplification de 25 cycles a 94° C pendant 
15 30secondes puis a 50° C pendant -30 secondes, puis a 72° C pendant 
5 minutes, un fragment de 666 paires de base a ete obtenu. 
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Hybridation southern et bibiiothegue genomique de L. 
mesenteroides B-1299 : 

L'ADN chrdmosomique de L mesenteroides B-1299 a ete 
digere avec differentes enzymes de restriction, puis separe sur gei 
d'agarose. Des bibliotheques genorriiques de la bacterie ont ete transferees 
sur des membranes de nylon hybond N+ (Amersham PharmaciaBiotech). 
(-'hybridation a ete realisee en utilisant le fragment de 666 paires de bases 
a la desoxy-adenosine-triphosphate marque au 32 P. La reaction de 
marquage a ete realisee en utilisant le kit 66 marquage "Mega Prime DNA 
Labelling System bit" (Amersham PharmaciaBiotech), suivie par la 
purification de la sonde sur des colonnes MicroSpih S-200HR. La pre- 
hybridation et I'hybridation ont ete reaiisees en conditions fortement 
stringentes (65° C pendant la nuit, selon les methodes habituelles) 
(Maniatis et al M 2001). 

PCR inverse : 

L'ADN genomique de L mesenteroides B-1299 est digere par 
EcoRV dans les conditions recommandees par le fournisseur. 

Apres re-circularisation, ies produits de digestion sont utilises 
comme matrice dans une PCR inverse (Extrapol II DNA polymerase 
(Eurobio) 25 cycles, 94° C, 30 secondes ; 51° C, 30 secondes ; 72° C, 
3 minutes). Les deux amorces ont ete choisies en fonction de la sequence 
de Pinsert de pSB2 comme ceci est indique dans (a figure 2. 

La figure 2 resume les modaiites' d'obtention des differents 
plasniides porteurs des fragments dfe dsrD paf^criblage de la blfoliotheque ' 
genomique et utilisation des sondes decrites ci-dessus. ' ' " " 

Sequence d'APM et anajy se : 

Apres le sequengage des peptides, des amorces degenerees 
dessinees en tenant com pte de la frequence d'utilisation des codons dans 
les genes de dextrane-saccharases de L mesenteroides B-1299, ont ete 
synthetisees et ont permis ramplification d'un fragment de 666 bp; Le 
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sequengage de ce fragment a revele de fortes homologies avec les genes 
de dextrane-saccharases deja connus, tout en etant totalement nouveau. 
^utilisation de ce fragment comme sonde homologue dans des 
experiences de Southern, a permis de reperer des signaux positifs sur 

5 differentes pistes d'ADN genomique digere. Une premiere banque Hind\\\ a 
ainsi 6te criblee, et un plasmide recombinant, nomme pSB2, contenant un 
insert de 5,6 kbp, a ete purifie. L'analyse de ia sequence de ce fragment 
H/ndlll a revele un cadre ouvert de lecture couvrant ia totalite de I'insert. 
Ensuite, une banque EcoRV a ete criblee avec une sonde H/ndlil/EcoRV 

10 isolee a i'extremite N-term de I'insert Hind\)\ de 5,6 kbp. Un plasmide 
recombinant pSB3, teste positivement par dot-blot, s'est avere contenir un 
insert de 3,8 kbp qui, apres sequengage, a ete montre contenir le codon 
d'initiation de la traduction et la region promotrice du nouveau gene de 
dextrane-saccharase nomme cfe/D. 

15 Dans le but d'obtenir le codon de terminaison de dsrO, une PCR inverse a 
ete realisee sur de I'ADN genomique de L mesentervides B-1299 digere 
par EcoRV et religue sur lui-meme, en utiiis^nt des amorces 
oligonucleotidiques divergentes dessinees a partir de la sequence de 
I'insert pSB2. Un fragment unique a ia taille attendue de 1 kbp a ete 

20 amplifier puis clone dans un pGEM-T Easy, pour obtenir le plasmide pSB4. 
Apres sequengage, la sequence amplifiee situee en aval du site H/ndlil 
comporte 221 bp et contient le codon de terminaison du cadre de lecture de 
cterD, situe 30 bp en aval du site de restriction H/ndlll. 

Le sequengage des differents fragments portes par les trois 

25 plasmides a ete realise par la societe Genome Express, et ce sur les deux 

brins. Les analyses des sequences de nucleotides ont ete r£alisees en 
utilisant le "ORF Finder" (http://www.ncbi.nlm.nih.Qov/gorf/qorf.htmn . Blast 
(http://www.ncbi.nlm.nih.gov/blast/blast.cqi . Altschul et al., 1997} ClustalW 
(http://www2.ebi.ac.uk/clustalw . Thompson et al, 1994), PRODOM 

30 (http://protein.toulouse.inra.fr/prodom.htmL Corpet et al, 2000), PFAM 
(http://pfam.wustl.edu/hmmsearch.shtml . Bateman et al, 2000) et SAPS 
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(http://biow eb.pasteur.fr/seaanal/interfaces/saps.html . Brendel et a!, 1992), 
I'ensemble de tes logiciels etant accessible par internet 
Expression de la protef ne : 

Le systeme de clonage ECHO (Invitrogen) a et£ utilise : deux 
5 amorces telles que propbsees dans le tableau I ci-dessus permettfent 
rampiification en utilisant le systeme de Boehringer Mannheim "Expand 
Long Template" dans les conditions suivantes : 94° C pendant 3 minutes 
suivis de 25 cycles a 94° C pendant 30 secondes, 55° C pendant 
30 secondes, et 68° C pendant 7 minutes. Les produits PCR sont ensuite 
10 clones dans je vecteur pUNIA/5-His-TOPO, permettant I'obtention d'un 
vecteur donneur (pUNI-cte/D) pour recombirier avScfun'vecteur accepteur 
(pCR-T7-E) et adapte a I'expression dans E. 'bolL Le plasmide final est 
designe pCR-T7-cfe/D. 

Cette construction place le gene dsrD sous le controle du 
15 promoteur du bacteriophage T7 et permet I'expression inducible du gene 
dsrD. 

Apres induction avec 1 rnM d'IPTG, ies cellules d'E. coli BL21 
transformees sont recoltees par centrifugation apres 4 heures de 
croissance, et re-suspendues a une densite optique finale de 80 a 600 nm 
20 dans du tampon acetate de sodium 20 mM pH 5,4 et du Triton X100 a 1% 
(v/v) en presence de 1 mM PMSF afin d'empecher la proteolyse dans les 
extraits celiulaires apres sonication. 

Tests enzvmatiaues : 

Les reactions enzymatiques sont r^alisees* dans ies ccinditfons 
standards a 30 degres dans du tampoh ac§tate d6 sodium 20 mWpH 5:4,' 
CaCI 2 0,05 g/I- 1 , NaN 3 1 g/T 1 et saccharose 100 g/T 1 . Uactivite de Tenzyme 
DSR-D est determinee en mesurant la liberation des sucres reducteurs, 
une unite etant definie comme la quantite d'enzyme qui catalyse la 
formation d'1 ymol de fructose par minute dans les conditions standards. 
Les oligosaccharides sont synthases dans un milieu reactionnei contenant 
100 g/l de maltose, 200 g/l de saccharose et 0,5 unites/ml de DSR-D. 
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Comme pour la synthese de dextrane, la reaction 
enzymatique a ete poursuMe pendant 24 heures en presence de 100 g/l de 
glucose. Le dextrane produit a ete pnscipite en presence d'ethanot 50 % 
(v/v) et lave deux fois dans i'ethanol a 50 % (v/v) avant lyophilisation. II est 
ensulte dissous a 10 mg/ml dans du D ? 0 et analyse par spectrometrie 
deRMri du 13 C. 

Analyse par RMN : 
Les analyses par resonance magn6tique nucleaire (RMN) du proton ont ete 
realisees sur un spectrom§tre Varian unit Plus equipe d'un systeme 
Ultrashim (frequence d'operation 499, 836 Mhz). Les echantillons ont ete 
dilu§s dans de i'eau deuterSe (5mg dans 6.75 ml de solvant) et analyses a 
25°C. Les spectres de protons ont ensuite ete realises a une frequence de 
3300Hz pendant "90 pulses et 12480 points. Le temps d'acquisition est egai 
a 1,891 secondes et le nombre d'accumulations et de 32 scans. 
Les spectres du carbone 13 C sont enregistres a I'aide d'un spectrometre 
Bruker AC 300. Les echantillons sont dilues dans de I'eau deuieree 
(environ 10-15 mg dans 0,40 ml)> les spectres sont realises a une 
frequence de 75 MHz a 70°C, et le temps d'acquisition est egai a 
0,54 secondes. 

Les deplacements chimiques sont donnes en ppm par rapport 
au signal methyle de Tacetone dans I'eau, qui est pris comme standard a 
X=31.5 ppm par rapport au signal methyle du 4,4 dirnethy!-4~silapentane-1- 
sulfonate. 

Exemple 1 : Caracterisation et purification de I'enzyme 
DSR-D et obtention du dsrD 

Les enzymes produites par les cultures de L mesenteroides 
et obtenues sur gel de polyacrylamide en SDS tel que decrit dans la partie 
Materiels et Methodes sont isolees par decoupe du gel. 

Les GOS produits par les enzymes ainsi isolees sont analyses 
par HPLC selon les methodes decrites dans (1). L'enzyme dont Tactivite est 
recherchee est deduite de la nature des GOS produits. Apr&s proteolyse 
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trypsique et separation par HPLC des peptides produits, 2 peptides : 29- 
FYFESGK et 24- FESQNNNP sont sequences et utilises comme modele 
pour la synthese d'amorces nucleotidiqiies degenerees. ' • - — 

Les differentes etapes d'amplification et de clonage sont 
5 representees dans la figure 2: Le gene completest irisere dans le plasmide 
pCR-T7-E et exprimd dans E. colL 

^ La production d'une enzyme fonctionnelle est attestee par la 
production des GOS dont I'analyse HPLC est representee dans la figure 
6b). 

10 On remarquera en particulier I'importance des pics 5 et 7 

representatifs des GOS a ramification <x(1 l->2). ' t : " 

Exemple 2 : caracterisation des sequences dsrD et de 

DSR-D 

2.1 Sequence nucleotidique : 

15 La sequence nucleotidique de Penzyme est representee dans 

la sequence ID No. 4. Elie est composee d'un cadre de lecture de 
8508 nucleotides. 

La sequence nucleotidique de I'insert dans !e plasmide pCR- 
T7-dsrD contient un site de liaison au ribosome (RBS), 9 bases en amont 

20 du codon d'initiation ATG et est composee d'un hexa-nudeotide GAGGAA. 

2.2 Analyse de la sequence d'amino-acides : 

La sequence de 8508 nucleotides de dsrD code une proteine 
de 2835 acides amines et est representee dans la'sequence ID No. 2. Le 
point isolectrique de cette proteine eit de 4,88 et son poids' mol6culaire 
25 theorique de 313,2 kDa. En depii des fortes similarit^s avec les Vextrane- 
saccharases deja connues, dsrD est caracterisee par une structure 
originale. 

L'alignement de la sequence d'amino-acides avec I'ensemble 
des glycosyltransferases et des dextrane-saccharases connues confirme 
30 que la structure en domaine des glycosyltransferases et des dextrane- 
saccharases est conservee, a savoir: une sequence signal, une region 
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variable, un domaine catalytique hautement conserve et un domaine de 
liaison au glucane. Cette structure est representee dans la figure 1a. 

Comme findique la figure 1b, un deuxieme domaine 
catalytique forme la partie carboxy-terminale de Penzyme comme cela ete 
confirme par PRODOM et une analyse Blast. 

Avec un poids moleculaire de 313,2 kDa, DSR-D a environ 
2 fois le poids moleculaire moyen des autres glycosyltransferases et 
dextrane-saccharases (1), ce qui est en accord avec la presence d'un 
deuxieme domaine catalytique a Pextr£mite C-terminale et egalement avec 
un domaine de liaison au glucane plus long. 

a) analyse de la sequence signal : 

La sequence signal et la sequence nucleotidique codant le 
peptide signal sont extr§mement conservees si on les compare aux autres 
dextrane-saccharases comme ceci est indique dans la figure 3. Le site de 
clivage est localise entre les acides amines 40 et 41 . 

b) domaine variable : 

En aval du peptide signal, DSR-D a un domaine variable de 
207 acides amines. Lorsqu'on le compare aux autres domaines variables 
des glycosyltransferases, en utilisant un programme d'alignement de type 
SAPS, on met en evidence la presence d'un motif de 14 acides amines 
repete 1 1 fois comme ceci est indique dans la figure 4. 

Ce motif repete, riche en alanine, threonine et acide 
aspartique n'a jamais ete identifie precedemment 

Le role et la signification de cette region n'ont jamais ete 
elucides. Differentes etudes ont demontre que sa deletion n'affecte pas 
Tactivrte enzymatique (4). Le r6le du motif repete de 14 acides amines qui 
n'existe pas dans les autres glycosyltransferases reste neanmoins & 
determiner. 

c) analyse des domaines catalvtiaues : 

Le premier domaine catalytique s'etend des acides amines 
248 a 1142 (CD1) de la sequence ID No 2, alors que le deuxieme est 
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localise entre les acides amines 1980 et 2836 (CD2). Ces deux domaines 
presenters 45 % d'identite et 65 % de similarity entre eux. 

CD1 et CD2 contiennent les acides -amines : -deja' identifies' ' 
dans les glycosyltransferases et les dextrane-saccharases comme etaht 
essentiels a leur activite enzymatique, et comme ceci est indique dans la 
figure 5. 

Les triades cataiytiques de CD1 et CD2 determinees par 
analogie avec I'a amylase (ret 7) sont presentes aux positions suivantes : 
(Asp 527/Glu 565/Asp 638 pour CD1 et Asp 2210/Glu 2248/Asp 2322 pour 
CD2). ........ 

D r autres residus conserves' ont ete "iden^l's "comme 
importants pour Tactivite enzymatique : les residus Trp 425/Glu 430 pour 
CD1 et Trp 2122/Glu 2127 pour CD2 r lesquels sont analogues a celles du 
domaine N-terminal de GFTI decrits par Monchois et al. (4) : Trp 344/Glu 
349. 

En revanche, certaines sequences situees dans la region 
conservee des glycosyltransferases et des dextrane-saccharases ne se 
retrouvent pas dans CD2 de DSR-D. Ainsi, comme indique dans le tableau 
4 ci-dessus t les sequences FIHNDTI (2214-2220) et KGVQEKV (2323- 
2329) divergent des autres sequences consensus des dextrane- 
saccharases deja etudiees qui sont respectivement NVDADLL et 
SEVQTVI. 

d) domaine de liaison au Qlucane : 

Lorsque Ton compare f la sequence de DSR-D avec les 
sequences connues, II apparaTt que le'bomaine 6e liaison au giucane* est 
sensiblement plus long. En effet ce domaine a une longueur d'environ 
500 acides amines dans les glycosyltransferases et les dextrane- 
saccharases etudiees alors que dans DSR-D, il represente 836 acides 
amines. Plusieurs motifs repetes A et C ont pu etre identifies. En particulier, 
une serie de repetition AC a pu etre identifiee. 
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Exemple 3 : expression dsr-D dans E. coli 
Des cellules d'E. coli BL21 (OE3) pLysS pCR-T7-dsrD ont ete 
cultivees comme decrit ci-dessus. Apres gel d'electrophorese en 
polyacrylamide-(page-SDS) Panalyse des extraits proteiques revele 
5 effectivement la presence de plusieurs bandes ayant i'activite de dextrane 
saccharase, ladite activite §tant mesuree comme ci-dessus. C'est cette 
lignee qui a ete deposee a la CNCM le 15 mars 2001 sous le numero I- 
2649. 

Identification et caracterisation de ractivite enzvmatique : 
10 En utilisant une molecule accepteur de glucose, les dextrane- 

saccharases produites par E. coli recombinant ont ete comparees avec 
celies produites par L mesenteroTdes B-1299. 

Uanalyse HPLC des produits de la reaction avec la DSR-D 
recombinante montre (figure 6) des temps de retention correspondent aux 
15 GOS prealablement identifies R4 et R5 (2). Les oligosaccharides de type R 
sont les series de GOS lineaires, le lien a(1 -» 2) etant lie a Textremite non- 
reductrice. La serie OD, GOS lineaires resultant de liens glycosidiques a(1 
6) avec un residu maltose § I'extremite reductrice, a ete observee en tres 
faibles quantites. Trois nouveaux composes sont en revanche detectes 
20 dans les produits de Tenzyme recombinante. 

Identification des GOS produits : 

Finalement, la figure 6b montre clairement que les pics 5 et 7 
representant les GOS de la serie R sont relativement plus impqrtants avec 
I'enzyme recombinante qu f avec Fenzyme native dont les pics 
25 correspondant au panose et a OD5 sont plus importants. 

Exemple 4 : Effet de fa deletion de CD2 sur ractivite 
enzymatique de DSR-D 

UADN genomique de L mesenteroides B-1299 est utilise comme 
matrice pour amplifier par PCR le gene cfefD delete de la sequence cor- 
30 respondant au second domaine catalytique. Pour ceia, 2 oligonucleotides, ECHO- 
dir (5'-AGTTGTATGAGAGACATGAGGGTAATTTGTGACCGTAAAAAATTG) (SEQ. ID 
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No. 6), correspondant a la sequence nucleotidique -6 a 39 et contenant le 
codon d' initiation de la traduction, et ECHO-inv-del (5 # - 

• GTATTAGTGAATAAGT ATTCACC^^ (&EO. " ID 

No. 7) compiemeritaire de la sequence 5889-5937 et 'correspondant a la 
sequence peptidique YYFDDKGNGEYCFTNT, orit 6te synthetisees, afin de 
fusionner Textremite C-terminale de ia proteirie" deletee avec un tag His 
present sur le vecteiir de clonage. La reaction PCR a ete reaiis6e grace a 
un DNA thermal cycler model 2400' (Perkin-Elmer) ; avec le systSme 
Expand Long Template System (Boehringer Mannheim), suivant le cycle de 
temperature: 94°C pendant 3 min, puis 25 cycles avec : 30 s £ 94°C, 30s a 
" 55°C et 7 min a 68*c! fe "produit PCK ae^i^i^ i lkon£ J d£S^e vecte'ur 
donneur pUNI, ef le plasmide resiiitant, utilise dans une reaction de 
recombinaison avec le vecteur d'expression pCR-T7-AcfefD. 

La preparation des extraits cellulaires, !es reactions 
enzymatiques, I'anaiyse des produits de la reaction sont les memes que 
dans I'exemple 3 ci-dessus. 

Le profil HPLC des GOS obtenus avec I'enzyme DSR-D 
deletee du domaine CD2 apparaTt dans la figure 6 c). 

Les GOS de type R, represents par les pics 5 et 7 visibles 
dans la figure 6 a) et 6 b) sont totalement absents des produits obtenus 
avec I'enzyme recombinante deletee de CD2. Les seuis produits 
analysables sont ceux correspondant a des oligosides lineaires resultant de 
liens a(1 -» 6) avec un residu maltose dans ia partie reductriceic'e resuitat 
indique clairement le role essentiel du ^omaifie catal^ique situl dans la 
partie carboxy-terrhinaie de I'enzyme dans ' sa capacite a former des 
liaisons osidiques <x(1 2). 

En conclusion, les inventeurs ont reussi en isolant une 
dextrane saccharase particuliere produite par L mesenteroides a 
caracteriser une structure particuliere et inattendue de cette enzyme apte a 
produire des oligosides d'interet et presentant des ramifications de type 
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cc(1-»2). L'identrfication et la caracterisation de cette sequence permettent 
d'une part de construire des cellules ou ^ organismes recombinants 
exprimant de fagon specifique cette enzyme et, d'autre part, d'en envisager 
sa modification par mutagenese dirigee ou aleatoire ou par evolution 
5 moleculaire (DNA Shuffling) afin d'en ameliorer encore ses caracteristiques. 

Cette invention permet en outre d'ameljorer le rendement et la 
reproductibilite de la production des GOS d'interet pour les differentes 
applications crtees ci-avant 
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REVENDlCATiONS 

1. Polypeptide isote ayant une activite enzymatique de 
5 gjycosyltransferase apte a former des dextranes presentant des 

ramifications a(1 2) a partir de saccharose, d'a-D-fluoro-glucose, de 
para-nitrophenyl-a-D-glucopyranoside, : d'a-D-glucopyranoside-aD- 
sorbofurano-side ou de 4-6-aD-galactopyranosylsucrose, characterise en ce 
qui! comprend au moins un domaine de liaison au glucane et un domaine & 

10 activite catalytique situe en aval du domaine de Haispn ^u glucane. 

^ . t • * *' .... - ■ • 

2. Polypeptide selon la revendtcation 1 comprenant au moins 
deux domaines catalytiques situes de part et d T autre du domaine de liaison 
au glucane. 

15 

3. Polypeptide selon la revendication 1 ou 2 presentant une 
structure telle que representee dans la figure 1b. 

4. Polypeptide selon Pune des revendications 1 a 3 dans 
20 lequel le ou les domaine(s) a activite catalytique a (ont) un pourcentage de 

simiiarite compris entre 65 % et 100 % avec la SEQ. ID :n°1. 

5. Polypeptide selon Tune des revendications precedentes 
dans lequel la taiile du domaine de liaison au glucane est supesrieure & 

25 500 aminoacides. 

6. Polypeptide selon ia revendication 5. ayant la SEQ AD : n°2. 

7. Polypeptide selon la revendication 6 modifie par 
30 substitution, insertion, deletion de sequences d r acides amines et 

comportant des sequences presentant au moins 80 % et de preference au 
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REVENDICATK3NS 

. ■. .v. * v-i-."' • 1 v..-: 

1 . Polypeptide isoteayant une^actlVife §nzym^tiqu'e'' •d^" , 
5 glycosyltransferase apte a former des dextranes pr^sentant des 

ramifications a(1 -> 2) a partir de saccharose, d'd-D-fluorb-glucose, de 
para-nitrophenyl-cc-D-gtucopyranoside, d'a-D-glucopyrarioside-aD- 
sorbofurano-side ou de 4-b-aD-gaTactopyrahosylsucrose, caracterise eh ce 
qu'il comprend au moins un domaine de liaison au giucane et un domaine a 
10 activite catalytique situe en aval du domsuhe de liaison au giucane. 

2. Polypeptide selon la revendication 1 comprenant au moins 
deux domaines cataiytiques situes de part et d'autre du domaine de liaison 
au giucane. 

15 

3. Polypeptide selon la revendication 1 ou 2 comprenant un 
peptide signal, une region variable, deux domaines cataiytiques et un 
domaine de liaison au giucane situe entre les deux domaines cataiytiques. 

20 4. Polypeptide selon Tune des revendications 1 a 3 dans 

lequel le ou les domaine(s) a activite catalytique a (ont) un pourcentage de 
similarity compris entre 65 % et 100 % avec la SEQ. ID :n°-L 

5. Polypeptide selon Tune des* revendications' precedences 
25 dans lequel la taille du domaine de liaison au giucane' est' superieure a 

500 aminoacides; 

6. Polypeptide selon la revendication 5. ayant la SEQ.ID : n°2. 
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7. Polypeptide selon la revendication 6 modifie par 
substitution, insertion, deletion de sequences d'acides amines et 
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moins 90 % de similarity avec les sequences suivantes de la sequence ID 
n° 2 : 

* 423-439 2120-2V38" 

478-501 2161 -2184 

519-539 2202-2214 

560 - 571 2243 - 2250 

631-645 2315-2322 

1014-1021 2689-2696 

8. Polypeptide selon la revindication 7 dans lequel les acides 
amines suivants soht inchanges : 

* W en positions 425 et 2122, 
E en positions 430, 565 et 2127, 2248, 
5 D en positions 487, 489, 527, 638, 2170, 2172, 2210 et 

2322, 

H en position 637 et 2321, 
Q en position 1019 et 2694. 

9. Acide nucleique isole codant une enzyme a activite 
10 glycosyltransferase apte a former des dextranes presentant des 

ramifications a1 2 a partir de saccharose, d'a-D-fiuoro-gfucose, de para- 
nitrophenykx-D-glucopyranoside, d'a-D-glucopyranoside-aD-sorbofurano- 
side ou de 4-O-a-D-galactopyranosylsucrose, et comprenant au moins une 
sequence nudeotidique codant un domaine catalytique ayant au moins 
15 50 %, et de preference au moins 80 % d'identite avec la sequence ID n° 3, 
et situe en 3 1 d'une sequence codant un domaine de liaison au glucane. 
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comportant des sequences presentant au moins 80 % et de preference au 
moins 90 % de similarity avec.les sequences suivantes de la sequence ID 
n°2 : ' " ' " ' ■ " * : " 

423-439(SEQ.IDn°6) 2120-2138 '(SEQ. ID ri° 12) * 

478 - 501 (SEQ. ID n° 7) . ' 2161 - 2184 (SEQ. ID n° 13) ' 
519 -539 (SEQ. ID n° 8) 2202 — 2214 (SEQ. ID n° 14) 

560 - 571 (SEQ. ID n° 9) 2243 - 2250 (SEQ. ID n° 15) 

631 - 645 (SEQ. ID n° 10) 2315 - 2322 (SEQ. ID n° 16) 

1014-1021 (SEQ ID n° 11) 2689- 2696 (SEQ: ID h° 17) 

8. Polypeptide seibn la" revindication 7 dans lequel (es acides 
amines suivants sont inchanges : 

W en positions 425 et 2122, 
E en positions 430, 565 et 2127, 2248, 
5 D en positions 487, 489, 527, 638, 2170, 2172, 2210 et 

2322, 

H en position 637 et 2321, 
Q en position 1019 et 2694. 

9. Acide nucleique isole codant une enzyme a activite 
10 glycosyltransferase apte a former des dextranes pr§sentant des 

ramifications a1 2 a partir de saccharose, d'a-D-fluoro-glucose, de para- 
nitrophenyl-a-D-giucopyranoside, d'a-D-glucopyranoside-aD-sorbofurano- 
side'pu de 4-O-a-D-gaiactopyranbsylsucrose, et'com'preriant'au "moins une 
sequence nucleotidique codant un domaine catalytique ' ayant au* moins 
15 50 %, et de preference au moins 80 ft'd'idehtitt avec la sequence ID n° 3* 
et situe en 3' d'une sequence codant un domaine de liaison au glucane. 
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10. Acide nucleique selon .la revendication 9 comprenant : 

a) deux sequences codant des domaines catalytiques ayant 
au rnoihs 50 %, et de preference au moins 80 % d'identfte avec la 
sequence ID n° 3 (1 324 - 3922) ; 

b) une sequence codant le domalne de liaison au glucane, ce 
dernier etant situe de preference entre les deux sequences en a). 

1 1 . Acide nucleique isole selon la revendication 1 0 presentant 
au moins 80 % d'identite avec 

a) la sequence ID n° 4 ou ; 

b) le brin complementaire de la sequence en a), ou 

c) une sequence hybridant a) ou b) en conditions stringentes. 

12. Acide nucleique isole selon ia revendication 11 constitue 
de la sequence ID n° 4 ou son brin complementaire ou de la sequence 
deduite de la degenerescence du .code genetique. 

13. Acide nucleique isole selon ia revendication 1 1 

comprenant : 

a) une sequence ayant au moins 80 % d'identite avec la 
sequence codant une dextrane saccharase exprimee par le plasrnide pCR- 
T7-dsr D depose a la CNCM le 15 mars 2001 sous le numero I-2669, ou 

b) une sequence complementaire de la sequence en a). 

14. Vecteur d'expression comprenant un acide nucleique 
selon Tune quelconque des revendications 9 2 13. 

15. Vecteur selon ia revendication 14 dans lequel Pacide 
nucleique est sous le controle de sequence permettant son expression 
dans des cellules procaryotes ou eucaryotes. 
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10. Acide nucleique selon !a revendication 9 comprenant : 

a) deux sequences codant des dbmaines catalytfques ayant 
* au moins 50 %, et de preference >£u * rhtoins SO'^- d'identite avec-la 

sequence ID n° 3 ; "• ■ * ■ 

5 b) une sequence codant (e ddfriainfe'de liaison' ali glucane; ce" 

dernier etant situe de preference entre les deux sequences eft a). 

11: Acide nucleique isole sielon la revendication 10 ptesentanf 
au moins 80 % d'identite avec 1 ■ ■ 

10' ' a) la sequence ID h° 4 od * - * ■*« ■ • • 

c) line sequence hyfaridarit a) ou bj' en conditions sthngentes.' 

12. Acide nucleique isole selon la revendication 1 1 constitue 
15 de la sequence ID n°4 ou son brin complementaire ou de la sequence 

deduite de la degenerescence du .code genetique. 

13. Acide nucleique isole selon (a revendication 11 

comprenant : 

20 a) une sequence ayant au moins 80 % d'identite avec la 

sequence codant une dextrane saccharase exprimee par le plasmide pCR- 
T7-dsr D deposS a ia CNCM le 15 mars 2001 soUs le numero [-2649, ou 

b) une sequence comptemerrtaire deta sequence en a).— 

25 " - ' ' 14. Vecteur d'expressfon ' corriprfenant un* acide ■ nucleique ■ 

selon Tune quelconque des revendications 9 a 13. 
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15. Vecteur selon la revendication 14 dans lequel Pacide 
nucleique est sous le contrdle de sequence permettant son expression 
dans des cellules procaryotes ou eucaryotes. 
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16. Cellule hote transformee par un acide nucleique selon 
Tune des revendications 9 a 13 ou un vecteur selon Tune des 
revendications 14 a 15. 

5 17. Cellule transformee selon la revendication 16 choisie dans 

un groupe comprenant E. coli, les leuconostoc, les vegetaux, les 
Lactococcus et les Bacillus ou les levures ; 

18 cellule transformee selon la revendication 17 caracterisee 
10 en ce qu'ii s'agit'd'une souche de E.coli deposee a la CNCM ie...sous le 

. . u ° ' ' * * 

n - • . v . t ...... 

19. Procede de production d'une dextrane saccharase apte a 
former des liaisons a1 2 comprenant : 
15 a) insertion d'un acide nucleique selon Tune des 

revendications 9 a 13 ou un vecteur selon Tune des revendications 14 a 15 
dans une cellule hote selon la revendication 16; 

b) la purification de Penzyme a partir d'un extrait cellulaire. 

20 20. Procede selon la revendication 1 9 dans lequel la cellule 

hote est un procaryote choisi dans un groupe comprenant E. coli, les 
Lactococci, les Bacillus, les Leuconostoc. 

21. Procede selon la revendication 19 dans lequel la cellule 
25 hote est un eucaryofe choisi dans un groupe comprenant les levures, les 

champignons, les vegetaux. 

22. Procede d'obtention d'une dextrane saccharase apte a 
former des oligosides ou des dextranes presentant un taux de liaison 

30 <x(1 ~* 2) superieur a 30 % des liaisons totales comprenant une etape de 



39 

16. Cellule hote transformee par un 'acide nucJeique selon 
Tune des revendications 9 a 13 ou un vecteur selon I'uhe'des 
revendications 14 a 15-. - . ~ . - .... : . 

17. Cellule transformee selon la revendication 16 choisie dans 
un groupe comprenant E. coli, les leuconostoc, les vegetaux, les 
Lactococcus et les Bacillus ou les levures ; * 

18 cellule transformee selon fa revindication 17 caracterisee 
en ce qu'il s'agit d'une souche de E.cbli deposee a te'CNCM le 
15 mars 2001 sous le ri 6 I-2649. t: " - 4 • "• 

19. Precede de production d'une dextrane saccharase apte a 
former des liaisons a1 — > 2 comprenant : 

a) I'insertion d'un acide nucleique selon Tune des 
revendications 9 a 13 ou un vecteur selon Tune des revendications 14 a 15 
dans une cellule hote selon la revendication 16; 

b) la purification de I'enzyme a partir d'un extrait cellulaire. 

20. Precede selon la revendication 19 dans lequel la cellule 
hote est un procaryote choisi dans un groupe comprenant E. coli, les 
Lactococci, les Bacillus, les Leuconostoc. 

21. Procede selon la revendication 1-9 dans lequeHa cellule 
hote est un eucaryote choisi dans urt groupe comprenant les levures, les ' 
champignons, les vegetaux. 

22. Procede d'obtention d'une dextrane saccharase apte a 
former des oligosides ou des dextranes presentant un taux de liaison 
a(1 -» 2) superieur a 30 % des liaisons totales comprenant une 6tape de 
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modification de la sequence ID n° 4 par addition, deletion, mutation a partir 

du moment ou : t 

- le cadre de lecture n'est pas modifie, et 

- les acides amines suivants sont conserves apres traduction : 
5 Wen positions 425 ou 2122, code par le triplet TGG en 

positions 1273 et 6364, 

E en positions 430, 565, 2127 et 2248 codes par les 
triplets GAA en positions 1288, 1693, 6379 et 6742 
respectivement, 

10 ' • ' Den positions 487, 489; 527, ,638, 2170 et 2210 codes par 

" ' les triplets GAT en positions 1459, 1465, 1579, 1912, 
6508 et 6628 respectivement, 

D en positions 2172 et 2322 codes par les triplets GAT en 
positions 6514 et 6964, 
15 H en position 637 et 2321, codes respectivement par les 

triplets CAT en position 1909 et CAC en position 6961 , 
Q en positions 1019 et 2694 codes respectivement par les 
triplets CAA (3055) et CAG (8080). 



20 23. Procede d'obtention d'une glycosyltransferase isolee apte 

a former des oligosides ou des dextranes presentant un taux de liaison 
ot(1 -> 2) superieur a 30 % comprenant : 

- une etape de modification aleatoire de la sequence ID n° 4 
et d'etablissement d'une banque de variants, 

25 - une etape d'expression de ces sequences modifiees dans 

une cellule hote appropri§e, un hdte abritant un variant, 

- une etape de criblage des hotes exprtmant une enzyme apte 
a former plus de 30 % de liaison a(1 2) sur un substrat approprie, 

- une etape d'isolement du ou des genes ameliores. 



30 
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modification de la sequence ID n° 4 p&r addition, deletion, mutation & partir 
du moment ou : - 

- le cadre de lecture ri'est pas modifier et - • ; " - : ' * 

- les acides amines suivants sontconserves apres traduction : 
5 ' • W en positions 425 ou 2122, code par le triplet TGG en 

positions 1273 et 6364, /■ 

E en positions 430; 565, 2127 et 2248 codes par- les 
triplets GAA en positions 1288, 1693, 6379 et 6742 
respectivement, 1 * 

10 Den positions 487/489;* 527, 638, 2170 et 2210- codes parr 

"' les triplets GAT* eh -^dsitfons • 1459, 1465, "1579; '1912;' 
'6508 et 6628 respectivemehf; ' v " % ' * " 
D en positions 2172 et 2322 codes par les triplets GAT en 
positions 6514 et 6964, 

15 H en position 637 et 2321, codes respectivement par les 

triplets CAT en position 1909 et CAC en position 6961 , 
Q en positions 1019 et 2694 codes respectivement par les 
triplets CAA (3055) et CAG (8080). 

20 23. Precede d'obtention d'une glycosyltransferase isolee apte 

a former des oligosides ou des dextranes presentant un taux de liaison 
a(1 2) superieur a 30 % comprenant : 

- une etape de modification aleatoire de la sequence ID n° 4 
et d'etablissement d'une banque de variants; ' 

'25 - une etape d'expression de ces sequences modifiees dans 

une cellule hote appropriee, un hote abritant un variant, 

- une etape de criblage des hotes exprimant une enzyme apte 
a former plus de 30 % de liaison a(1 -» 2) sur un substrat approprie, 

- une etape d'isolement du ou des genes ameliores. 

30 
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24. glycosyltransferase apte a former au moins 30 % de 
liaison a(1 2) susceptible d'etre obtenue par un procede selon Tune des 
revendications 19 a 22. 

25. Utilisation d'une glycosyltransferase obtenue par. un 
procede seion Tune des revendications 19 a 22 dans la fabrication d'une 
composition & effet prebiotique. 

26. Utilisation d'une glycosyltransferase obtenue par un 
procede selon Tune des revendications 19 a 23 dans la fabrication d'une 
composition pharmaceutique ou cosmetique,, , ...... 
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24. glycosyltransferase apte a former au rhoins 30% de' 
liaison a(1 2) susceptible d'etre obtenue par tin procede selon Tune des 
revendications 1 9 a 22. 



5 25. Utilisation d'une glycosyltransferase obtenue par tin 

proc£d6 selon I'uhe'des revendications 19 & 22 "dans la fabrication d'une 
composition a effet prebiotique. 

26. Utilisation d'une glycosyltransferase obtenue par un 
10 procede selon Tune des revendications 19 3 23 dans la* fabrication d'une 
composition pharrnaceutique ou cdSmetiqlie. •"•«•"■ ...-«. — 
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(i) CARACTERISTIQUES DE LA SEQUENCE ; 

(A) LONGUEUR : 856 acides amines 

(B) TYPE; : acides amines 
(A) TOPOLOGIE : lineaire 

(ii) TYPE DE MOLECULE : proteine >■ * -* » - • ■ • 
(x) DESCRIPTION DE LA SEQUENCE :' SEQ ID "NO:l: 

Leu 

' - ' ' 19 - 80 

Asp Met Ser Thr Asn Ala Phe Ser Thr Lys Asn V$l Ala P,he Asn. 

1985 " 1990 " " ' * " 1995 

His Asp Ser Ser Ser Phe Asp His Thr Val Asp Gly Phe Leu Thr 
2000 2005 2010 

Ala Asp Thr Trp Tyr Arg Pro Lys Ser lie Leu Ala Asn Gly Thr 
2015 * ' 2020 2025 

Thr Trp Arg Asp Ser Thr Asp Lys Asp Met Arg Pro Leu lie Thr 
2030 2035 2040 

Val Trp Trp Pro Asn Lys Asn Val Gin Val Asn Tyr Leu Asn Phe 
2045 2050 2055 

Met Lys Ala Asn Gly Leu Leu Thr Thr Ala Ala Gin Tyr Thr Leu 
206b 2065 2070 

His Ser Asp Gin Tyr Asp Leu Asn Gin Ala Ala Gin Asp Vai Gin 
2075 ■ ' 2080 • - ' -2085 

Val Ala lie Glu Arg Arg lie Ala Ser Glu 'His Gly Thr Asp Trp 
2090 '2095 2100 

Leu Gin Lys Leu Leu Phe Glu Ser Gin Asn Asn Asn Pro Ser Phe 
2105 2110 2115 

Val Lys Gin Gin Phe lie Trp Asn Lys Asp Ser Glu Tyr His Gly 
• 2120 2125 2130 

Gly Gly Asp Ala Trp Phe Gin Gly Gly Tyr Leu Lys Tyr Gly Asn 
2135_ 2140 2145 
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Asn Pro Leu Thr Pro Thr Thr Asn Ser Asp Tyr Arg Gin Pro Gly 
2150 2155- 2160 

Asn Ala Phe Asp Phe Leu Leu Ala Asn Asp Val Asp Asn Ser Asn 
2165 2170 . 2175 

Pro Val Val Gin Ala Glu Asn Leu Asn Trp Leu His Tyr Leu Met 
2180 2185 2190 

Asn Phe Gly Thr lie Thr Ala Gly Gin Asp Asp Ala Asn Phe Asp 
2195 2200 . 2205 

Ser He Arg He Asp Ala Val Asp Phe- He His- Asn Asp Thr He 
2210 2215 2220 

Gin Arg Thr Tyr Asp Tyr Leu Arg Asp Ala Tyr Gin Val Gin Gin 
2225 2230 2235 

Ser Glu Ala Lys Ala Asn Gin His He Ser Leu 'Val Glu Ala Gly 
2240 2245 2250 

Leu Asp Ala Gly Thr Ser Thr He His Asn Asp Ala Leu He Glu 
2255 2260 2265 

Ser Asn Leu Ara Glu Ala Ala Thr Leu Ser Leu Thr Asn Glu Pro 
"2270 2275 2280 

Gly Lys Asn Lys Pro Leu Thr Asn Met Leu Gin Asp Val Asp Gly 
2285 2290 2295 

Gly Thr Leu He Thr Asp His Thr Gin Asn Ser Thr Glu Asn Gin 
2300 2305 2310 

Ala Thr Pro Asn Tyr Ser He He His Ala His Asp Lys Gly Val 
2315 2320 2325 

Gin Glu Lys Val Gly Ala Ala He Thr Asp Ala Thr Gly Ala Asp 
2330 2335 2340 

Trp Thr Asn Phe Thr Asp Glu Gin Leu Lys Ala Gly Leu Glu Leu 
2345 2350 2355 

Phe Tyr Lys Asp Gin Arg Ala Thr Asn Lys Lys Tyr Asn Ser Tyr 
2360 2365 2370 

Asn He Pro Ser He Tyr Ala Leu Met Leu Thr Asn Lys Asp Thr 
2375 2380 2385 

Val Pro Arg Met Tyr Tyr Gly Asp Met Tyr Gin Asp Asp Gly Gin 
2390 2395 2400 

7/2 
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Tyr Met Ala Asn Lys Ser lie Tyr Tyr Asp Ala Leu Val Ser Leu 
2405 2410 2415 

Met Thr Ala Arg Lys' Ser Tyr Val Ser Gly Gly Gin Thr. Met Ser 
2420 2425 2430 

Val Asp Asn His Gly Leu Leu Lys Ser Val Arg Phe Gly Lys Asp 
2435' 2440 " 2445 

Ala Met Thr Ala Asn 4 Asp Leu Gly Thr Ser. Ala Thr Arg Thr Glu 
2450. 2455 2460 

Gly Leu Gly Val lie lie Gly Asn Asp Pro Lys Leu Gin Leu Asn 
2465 2470 2475 

Asp Ser Asp Lys Val Thr Leu Asp Met Gly Ala Ala His Lys Asn 
2480 2485 ' 2490 

Gin Lys Tyr Arg Ala Val lie Leu Thr Thr Arg Asp Gly Leu Ala 
2495 2500 2505 

Thr Phe Asn Ser Asp Gin Ala Pro Thr Ala Trp Thr Asn Asp Gin 
2510 2515 2520 

Gly Thr Leu Thr Phe Ser Asn Gin Glu He Asn Gly Gin Asp Asn 
2525 2530 2535 

Thr Gin He Arg Gly Val Ala Asn Pro Gin Val Ser Gly Tyr Leu 
2540 2545 ~* 2550 

Ala Val Trp .Val Pro Val Gly Ala Ser Asp Asn Gin Asp Ala Arg 
2555 2560 2565 

Thr Ala Ala Thr Thr Thr Glu Asn His Asp Gly Lys Val Leu His 
2570 : 2575 2580 

Ser Asn Ala Ala Leu' Asp Ser Asn Leu He Tyr Glu Gly' Phe Ser 
2585 2590 • 2595 

Asn Phe Gin Pro Lys Ala Thr Thr His Asp Glu Leu Thr Asn Val 
2600 2605 2610 

Val He Ala Lys Asn- Ala Asp Val Phe Asn .Asn Trp Gly He Thr 
2615 2620 2625 

Ser Phe Glu Met Ala Pro Gin Tyr Arg Ser Ser Gly Asp His Thr 
2630 2635 ~ 264-0 

Phe Leu Asp Ser Thr He Asp Asn Gly Tyr Ala Phe Thr Asp Arg 
2645 . 2650 2655 
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Tvr Asp Leu Gly Phe Asn Thr Pro Thr Lys Tyr Gly Thr Asp Gly 
2660 2665 2670 

Asp Leu Arg Ala Thr He Gin Ala Leu His His Ala Asn Met Gin 
2675 2680 2685 

Val Met Ala Asp Val Val Asp Asn Gin Val Tyr Asn Leu Pro Gly 
2690 2695 2700 

Lvs Glu Val Val Ser Ala Thr Arg Ala Gly Val Tyr Gly Asn Asp 
2705 2710 2715 

Asp Ala Thr Gly Phe Gly Thr Gin Leu Tyr Val Thr Asn .Ser Val 
2720 2725 2730 

Gly Gly Gly Gin Tyr Gin Glu Lys Tyr, Ala Gly Gin Tyr Leu Glu 
2735 2740 2745 

Ala Leu Lys Ala Lys Tyr Pro Asp Leu Phe Glu Gly Lys Ala Tyr 
2750 2755 2760 

Asd Tvr Trp Tyr Lys Asn Tyr Ala Asn Asp Gly Ser Asn Pro Tyr 
" 2765 " 2770 2775 

Tyr Thr Leu Ser His Gly Asp Arg Glu Ser He Pro Ala Asp Val 
2780 2785 2790 

Ala He Lys Gin Trp Ser Ala Lys Tyr Met Asn Gly Thr Asn Val 
2795 2800 2805 

Leu Gly Asn Gly Met Gly Tyr Val Leu Lys Asp Trp His Asn Gly 
2810 2815 2820 

Gin Tyr Phe Lys Leu Asp Gly Asp Lys Ser Thr Leu Pro Gin He 
2825 2830 2835 
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<i) CARACTERISTIQUES DE LA SEQUENCE : 

(A) LONGUEUR : 2835 amino acids 

(B) TYPE: acide amine 
(A) TOPpLOGIE lineaire 

(ii) TYPE • DE MOLECULE : prot<§ine ~ • 

(x) DESCRIPTION DE LA SEQUENCE : SEQ ID NO: 2 



Met Arg Asp Met Arg Val He Cys Asp Arg Lys Lys Leu Tyr Lys 

" 1 '5* ■■ ■ 10 ' - 15 

Ser Gly Lys Val Leu Val Thr Ala Gly He Phe Ala Leu Met Met 
20 25 30 

Phe Gly Val Thr Thr Ala Ser Val Ser Ala Asn Thr He Ala Val 
35 40 45 

Asp Thr Asn His Ser Arg Thr Ser Ala Gin He Asn Lys Ser Ala 
50 . 55 60 

Val Asp Lys Val Asn Asp Asp Lys Thr Thr Leu Gly Ala Ala Lys 
65 70 75 

Val Val Ala Val Ala Thr Thr Pro Ala Thr Pro Val Ala Asp Lys 
80 85 90 

Thr Val Ser Ala Pro Ala Ala Asp Lys Ala Val Asp Thr Thr Ser 
? 5 . 10.0 ... 105 

Ser Thr Thr Pro Ala Thr Asp Lys Ala Val Asp thr Thr Pro Thr 

• ■ ■■ HO . . ■ H5-.. ... r 120 

Thr Pro Ala Ala Asp Lys Ala Val Asp Thr Thr Pro Thr Thr Pro 
125 130 135 

Ala Ala Asp Lys Ala Val Asp Thr Thr Pro Thr Thr Pro Ala Ala 
140 145 15Q 

Asn Lys Ala Val Asp Thr Thr Pro Ala Thr Ala Ala Thr Asp Lys 
155 . 160 165 

Ala Val Ala Thr Pro Ala Thr Pro Ala Ala Asp Lys Leu Ala Asn 
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Thr Thr Pro Ala Thr Asp Lys Ala Val Ala Thr Thr Pro Ala Thr 
185 190 195 

Pro Val Ala Asn Lys Ala Ala Asp Thr Ser Ser tie His Asp Gin 
200 205 210 

• 

Pro Leu Asp Thr Asn Val Pro Thr Asp Lys Ser Ala Asn Leu Val 
215 220 225 

Ser Thr Thr Gin Lys Ser Thr Asp Asn Gin Gin Val Lys Ser Thr 
230 235 240 

Glu Thr Ser His Leu Gin Glu He Asn Gly Lys Thr Tyr Phe Leu 
245 250 255 

Asp Asp Asn Gly Gin Val Lys Lys Asn Phe Thr Ala He He Asp 
260 265 270 

Glv Lys Val Leu Tyr Phe Asp Lys Thr Ser Gly Glu Leu Thr Ala 
275 280 285 

Asn Ala Pro Gin Val Thr Lys Gly Leu Val Asn He Asp Asn Ala 
290 295 300 

His Asn Ala Ala His Asp Leu Thr Ala Asp Asn Phe Thr Asn Val 
305 310 315 

Asp Gly Tyr Leu Thr Ala Asn Ser Trp Tyr Arg Pro Lys Asp He 
320 325 330 

Leu Lys Asn Gly Thr Thr Trp Thr Pro Thr Thr Ala Glu Asp Phe 
335 340 345 

Ara Pro Leu Leu Met Ser Trp Trp Pro Asp Lys Asn Thr Gin Val 
350 355 360 

Ala Tyr Leu Gin Tyr Met Gin Ser Val Gly Met Leu Pro Asp Asp 
365 370 375 

Val Lys Val Ser Asn Asp Asp Asn Met Ser Thr Leu Thr Asp Ala 
380 385 390 

Ala Met Thr Val Gin Lys Asn He Glu Ser Arg He Gly Val Ser 
395 400 405 

Gly Lys Thr Asp Trp Leu Lys Gin Asp Met Asn Lys Leu He Asp 
410 415 420 

Ser Gin Ala Asn Trp Asn He Asp Ser Glu Ser Lys Gly Asn Asp 
425 . 430 435 
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His Leu Gin Gly Gly Ala Leu Leu Tyr Val Asn Asp Asp Lys Thr 

440 445 450 

Pro Asn Ala Asn Ser Asp Tyr Arg Leu Leu Asn Arg Thr Pro Thr 

455 460 465 



Asn Gin Thr Gly Gin lie Thr Asp Pro Ser Lys Gin Gly Gly Tyr 



470 

Glu Met Leu Leu Ala 
485 



475 



480 



Asn Asp Val Asp Asn Ser Asn Pro Val Val 
490 495 



Gin Ala Glu Gin Leu : Asn Trp Leu His Tyr Met Met Asn lie Gly 
500. 505 510 

Thr lie Ala Gin Asn^Asp Pro. Thr Ala Asn Phe Asp Gly Tyr Arg 
515". 520 525 

Val Asp Ala Val Asp Asn Val Asp Ala Asp Leu Leu Gin lie Ala 
530 535 540 

Gly Asp Tyr Phe Lys Ala Ala Tyr Gly Thr Gly Lys Thr Glu Ala 
545 550 555 

Asn Ala Asn Asn His lie Ser lie Leu Glu Asp Trp Asp Asn Asn 
560 565 570 

Asp Ser Ala Tyr He Lys Ala His Gly Asn Asn Gin Leu Thr Met 
575 ~ 580 585 

Asp Phe Pro Ala His Leu Ala Leu Lys Tyr Ala Leu Asn Met Pro 
590 595 600 

Leu Ala Ala Gin Ser Gly Leu Glu Pro Leu He Asn Thr Ser Leu 
605* • 610 • 615 

Val Lys Arg Gly Lys Asp Ala Thr Glu Asn Glu Ala' Gin Pro Asn 
620- 625 • . ■ 630 

Tyr Ala Phe' He Arg. Ala His As'p Ser Glu Val Gin Thr Vai * lie 
635 640 645- 

Ala Gin He He Lys Asp Lys He Asn Thr Lys Ser Asp Gly Leu 
650 . 655 ' " 

Thr Val Thr Pro Asp . Glu He Lys Gin Ala Phe Thr He Tyr Asn 
665 • 670 ' 675 



Ala .Asp Glu Leu Xys 'Ala Asp Lys Glu Tyr Thr Ala Tyr Asn He 
680* . . 685 690 

8/3 



Pro Ala Ser Tyr Ala Val Leu Leu Thr Asn Lys Asp Thr Val Pro 

695 700 705 

Arg Val Tyr Tyr Gly Asp Leu Phe Ser Asp Asp Gly Gin Tyr Met 

710 " 715 / 720. 

Ser Gin Lys Ser Pro Tyr Tyr Asp Ala lie Thr Ser Leu Leu Lys 

725 730. , 735 

Ser Arg lie Lys Tyr Val Ala Gly Gly Gin Ser Met Asn Met Thr 

740 745 750 

Tyr Leu His Glu Cys Phe Asp Pro Ala Lys Asn Glu Thr Lys Pro 

755 760 765 

r 

Gin Gly Val Leu Thr Ser Val Arg Tyr Gly Lys Gly Ala Met Thr 

770 775 , . 780 

Ala Asp Asp Leu Gly Asn Ser Asp Thr Arg Gin Gin Gly lie Gly 

785 790 795 

Leu Val He Asn Asn Lys Pro Phe Leu Asn Leu Asn Asp Asp Glu 

800 805 810 

Gin He Val Leu Asn Met Gly Ala Ala His Lys Asn Gin Ala Tyr 

815 820 825 

Arg Pro Leu Met Leu Thr Thr Lys Ser Gly Leu Gin He Tyr Asp 

830 835 840 

Lys Asp Ala Gly Ala Pro Val Val Tyr Thr Asn Asp Ala Gly Gin 

845 850 855 

Leu He Phe Lys Ser Asp Met Val Tyr Gly Val Ser Asn Pro Gin 

860 865 870 

Val Ser Gly Tyr Phe Ala Ala Trp Val Pro Val Gly Ala Ser Asp 

875 880 885 

Ser Gin Asp Ala Arg Thr Gin Ser Ser Gin Ser Glu Thr Lys Asp 

890 895 900 

Gly Asp Val Tyr His Ser Asn Ala Ala Leu Asp Ser Asn Val He 

905 910 915 

Tyr Glu Gly Phe Ser Asn Phe Gin Ala Met Pro Glu Lys Asn Asp 

920 925 930 

Asp Phe Thr Asn Val Lys He Ala Gin Asn Ala Lys Leu Phe Lys 

935 940 945 
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Asp Leu Gly He Thr Ser Phe Glu Leu Ala Pro Gin Tyr Arg Ser 
950 f 955 "* 960 

Ser Thr Asp Asn Ser Phe Leu Asp Ser Val He Gin Asn Gly Tyr 
965 '970 975 

Ala Phe Thr Asp Arg Tyr Asp Val Gly Tyr Asn Thr Pro Thr Lys 
980 985 990 

Tyr Gly Thr Val Asp Gin Leu Leu Asp .Ser Leu Arg Ala Leu His 
"5 1 1000 1005 

Ala Gin Gly He Gin Ala He Asn Asp Trp Val Pro Asp Gin He 
1010 \ 1015 1020 

Tyr Asn Leu Pro Gly Glu Gin He Val" Thr Ala' Val Arg Thr Asn 
1025 1030 " 1035 

> . . i .... 

Gly Ser Gly Lys Tyr Asp Tyr Asp Ser Val lie Asn Asn Thr Leu 
1040 1045 1050 

Tyr Asp Ser Arg Thr Val Gly Gly Gly Glu Tyr Gin Glu Lys Phe 
1055 1060 1065 

Gly Gly Leu Phe Leu Asp Gin Leu Lys Lys Asp Tyr Pro Ser Leu 
1070 1075 " 1080 

Phe Glu Thr Lys Gin He Ser Thr Asn Gin Pro Met Asn Pro Asp 
1085 1090 1095 

Val Lys He Lys Glu Trp Ser Ala Lys Tyr Phe Asn Gly Ser Asn 
1100 1105 1110 

He Gin Gly Arg Gly Ala Trp Tyr Val Leu Lys Asp Trp Ala Thr 
HIS ^ 1120 1125 

Asn Gin Tyr Phe Asn Val Ser Se'r Asp ' Asn' Gly^he Leu' Pro 'Lys 
II 30 H35 1140 

Gin Leu Leu Gly Glu Lys Thr Ser Thr Gly' Phe He Thr Glu Asn 
1145 1150 11 55 

Gly Lys Thr Ser Phe Tyr Ser Thr Ser Gly .Tyr Gin Ala Lys Asp' 
H60 1165 1170 

Thr Phe He Gin Asp Gly Thr Asn Trp Tyr Tyr Phe Asp Asn Ala 
1275 1180 li85 

Gly Tyr Met Leu Thr Gly Lys Gin Asn He His Asp Lys Asn Tyr 
. II 90 1195 1200 



Tvr Phe Leu Pro Asn Gly Val Glu Leu Gin Asp Ala Tyr Leu Phe 
1205 1210 1215 

Asp Gly Asn Gin Glu Phe Tyr Tyr Asn Lys Ala Gly Glu Gin Val 
1220 1225 1230 

Met Asn Gin Tyr Tyr Gin Asp Ser Gin Asn Gin Trp His Tyr Phe 
1235 1240 1245 

Phe Glu Asn Gly Arg Met Ala He Gly 'Leu Thr Glu Val Pro Asn 
1250 1255 1260 

Ala Asp Gly Thr His Val Thr Gin Tyr Phe Asp Ala Asn Gly Val 
1265 . 1270 1275 

Gin He Lys Gly Thr Ala He Lys Asp Gin Asn Asn Gin Leu Arg 
1280 1285 1290 

Tvr Phe Asp Glu Ala Thr Gly Asn Met Val Val Asn Ser Trp Gly 
1295 1300 1305 

Gin Leu Ala Aso Lys Ser Trp Leu Tyr Leu Asn Ala Gin Gly Val 

* 1310 1315 1320 

Ala Val Thr Gly Asn Gin Lys He Asp Gly Glu Glu Tyr Tyr Phe 
1325 1330 1335 

Asn Ala Asp Gly Lys Gin Val Lys Gly Asn Ala He He Asp Asn 
1340 1345 1350 

Asn Gly Asp Gin Arg Tyr Tyr Asp Gly Asp Lys Gly Val Met Val 
1355 1360 1365 

Val Asn Ser Trp Gly Glu Leu Pro Asp Gly Ser Trp Leu Tyr Leu 
1370 1375 1380 

Asn Asp Lys Gly He Ala Val Thr Gly Arg Gin Val He Asn Asn 
1385 1390 1395 

Gin Val Asn Phe Phe Gly Asn Asp Gly Lys Gin He Lys Asp Ala 
1400 1405 1410 

Ph<- Lys Leu Leu Ser Asp Gly Ser Trp Val Tyr Leu Asp Asp Lys 
1415 1420 1425 

Gly Leu He Thr Thr Gly Ala Lys Val He Asn Gly Leu Asn Met 
1430 1435 1440 

Phe Phe Asp Lys Asp Gly His Gin He Lys Gly Asp Ala Ser Thr 

• 1445 1450 1455 
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Asp Ala Asn Gly Lys Arg His Tyr Tyr Asp Lys Asn Asp Gly His 
1460 1465 * 1470 

Leu Val Thr Asn Ser Trp Gly Glu Leu Pro Asp Gly Ser Trp Leu 
1475 1480 1485 

Tyr Leu Glu Glu Gin Gly Asp Ala Val Thr Gly Gin Arg Val lie 
1490, 1495 1500 

Asp Gly Lys Thr Arg Tyr Phe Asp Glu Asp Gly Lys Gin lie Lys 
150? 1510 1515 

Asn Ser Leu Lys Thr Leu Ala Asn Gly Asp Lys lie Tyr Leu Asp 
1520 1525 1530 

Gly Asp Gly Val Ala Ala Thr Gly Leu Gin His Val Gly Asp Lys 
1535 1540 1545 

** / • . ■ ' « V . 

lie Met Tyr Phe Asp Glu Asp Gly Lys Gin Val Val Gly Lys Phe 
1550 1555 " 1560 

Val Ser Ala Lys Asp Gly Ser Trp Tyr Tyr Leu Asn Gin Asp Gly 
1565 1570 1575 

Val Ala Ala Val Gly Pro Ser Ser lie Asn Gly Gin Ser Leu Tyr 
1580 1585 1590 

Phe Asp Gin Asp Gly Lys Gin Val Lys Tyr Asn Glu Val Arg Asn 
1595 1600 1605 

Ser Asp Gly Thr Thr Asn Tyr Tyr Thr Gly Leu Thr Gly Glu Lys 
1610 1615 1620 

Leu Thr Gin Asp Phe Gly Glu Leu Pro Asp Gly Ser Trp He Tyr 
1625' 1630 1635 

Leu Asp Ala Gin Gly His Thr Val Thr Gly Ma Gin lie lie Asn 
1640 1645 1650 

Gly Gin Asn Leu Tyr Phe Lys Ala Asp Gly Gin Gin Val Lys Gly 
1655 1660 " 1665 

His Ala Tyr Thr Asp Gin Leu Gly His Met Arg Phe Tyr Asp Pro 
1670 . 1675 1680 

Asp Ser Gly Asp Met Leu Ser Asn Arg Phe Glu Gin He Thr Pro 
1685 1690 1695 

Gly yal Trp Ala Tyr ;Phe Gly Ala Asp Gly Val Ala He Thr Gly 
1700.. . 1705 1710 
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Gin His Asp He Asn Gly Gin Lys Leu Phe Phe Asp Glu Thr Gly 
1715 1720 1725 

Tyr Gin Val Lys Gly Ser Gin Arg Thr He Asp Gly Thr Leu Tyr 
1730 1735 1740 

Ser Phe Asp Ser Gin Thr Gly Asn Gin Lys Arg Val Gin Thr Thr 
1745 1750 1755 

Leu Leu Pro Gin Ala Gly His Tyr He /Thr Lys Asn Gly Asn Asp 
1760 1765 1770 

Trp Gin Tyr Asp Thr Asn Gly Glu Leu Ala Lys Gly Leu Arg Gin 
1775 1780 1785 

Asp Ser Asn Gly Lys Leu Arg Tyr Phe Asp Leu Thr Thr Gly He 
1790 1795 1800 

Gin Ala Lys Gly Gin Phe Val Thr He Gly Gin Glu Thr Tyr Tyr 
1805 1810 1815 

Phe Ser Lys Asp His Gly Asp Ala Gin Leu Leu Pro Met Val Thr 
1820 1825 1830 

Glu Gly His Tyr Gly Thr He Thr Leu Lys Gin Gly Gin Asp Thr 
1835 1840 1845 

Lys Thr Ala Trp Val Tyr Arg -Asp Gin Asn Asn Thr lie Leu Lys 
1850 1855 I860 

Gly Leu Gin Asn He Asn Gly Thr Leu Gin Phe Phe Asp Pro Tyr 
1865 1870 1875 

Thr Gly Glu Gin Leu Lys Gly Gly Val Ala Lys Tyr Asp Asp Lys 
1880 1885 1890 

Leu Phe Tyr Phe Glu Ser Gly Lys Gly Asn Leu Val Ser Thr Val 
1895 1900 1905 

Ala Gly Asp Tyr Gin Asp Gly His Tyr He Ser Gin Asp Gly Gin 
1910 1915 1920 

Thr Arg Tyr Ala Asp Lys Gin Asn Gin Leu Val Lys Gly Leu Val 
1925 1930 1935 

Thr Val Asn Gly Ala Leu Gin Tyr Phe Asp Asn Ala Thr Gly Asn 
1940 1945 ' 1950 

Gin He Lys Asn Gin Gin Val He Val Asp Gly Lys Thr Tyr Tyr 
1955 1960 1965 
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Phe Asp Asp Lys Gly Asn Gly Glu Tyr Leu Phe Thr Asn Thr Leu 
1370 1975 1980 

Asp Met Ser Thr Asn Ala Phe Ser Thr Lys Asn Val Ala Phe Asn 
1985 1990 1995 

His Asp Ser Ser Ser Phe Asp His Thr Val Asp Gly Phe Leu Thr 
2000 2005 2010 

Ala Asp Thr Trp Tyr Arg Pro Lys Ser He Leu Ala Asn Gly Thr 
2015 2020 2025 

Thr Trp Arg Asp Ser Thr Asp Lys Asp Met Arg Pro Leu .He Thr 
2t>30 2035 2040 

Val Trp Trp Pro Asn Lys Asn Val Gin Val Asn Tyr Leu Asn Phe 
. 2p45 2050 " 2055 

Met Lys Ala Asn Gly Leu Leu Thr Thr Ala Ala Gin Tyr Thr Leu 
2060 2065 2070 

His Ser Asp Gin Tyr Asp Leu Asn Gin Ala Ala Gin Asp Val Gin 
2075 2080 2085 

Val Ala He Glu Arg Arg He Ala Ser Glu His Gly Thr Asp Trp 
2090 2095 "* 2100 

Leu Gin Lys Leu Leu Phe Glu Ser Gin Asn Asn Asn Pro Ser Phe 
2105 2110 2115 

Val Lys Gin Gin Phe He Trp Asn Lys Asp Ser Glu Tyr His Gly 
2120 2125 ~ 2130 

Gly Gly Asp Ala Trp Phe Gin Gly Gly Tyr Leu Lys Tyr Gly Asn 
2135 2140- - 2145 

Asn Pro Leu Thr Pro Thr Thr Asn Ser Asp Tyr Arg Gin Pro" Gly* 
2150 2155 2160 

Asn Ala Phe Asp phe Leu Leu Ala Asn Asp Val Asp Asn ' Ser Asn 
2165 2170 " 2175 

Pro Val Val Gin Ala Glu Asn Leu Asn Trp Leu His Tyr Leu Met 
2180 2185 U 2190 

Asn Phe Gly Thr He Thr Ala Gly Gin Asp Asp Ala Asn Phe Asp 
2 .195 2200 2205 

Ser He Arg lie Asp Ala Val Asp Phe He His Asn Asp Thr He 
2210 • 2215 ... ' * 2220 
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Gln Arg Thr Tyr Asp Tyr Leu Arg Asp Ala Tyr Gin Val Gin Gin 
2225 2230 2235 

Ser Glu Ala Lys Ala Asn Gin His He Ser Leu Val Glu Ala Gly 
2240 224 5 • . 2250 

Leu Asp Ala Gly Thr Ser Thr He His Asn Asp Ala Leu He Glu 
2255 2260 2265 

Ser Asn Leu Arg Glu Ala Ala Thr Leu Ser Leu Thr Asn Glu Pro 
2270 2275 2280 

Glv Lvs Asn Lys Pro Leu Thr Asn Met Leu Gin Asp Val Asp Gly 
2285 2290 2295 

Gly Thr Leu 'lie Thr Asp His Thr Gin Asn Ser Thr Glu Asn Gin 
2300 ;2305 2310 

Ala Thr Pro Asn Tyr Ser He He His Ala His Asp Lys Gly Val 
2315 2320 2325 

Gin Glu Lys Val Gly Ala Ala He Thr Asp Ala Thr Gly Ala Asp 
2330 2335 2340 

Trp Thr Asn Phe Thr Asp Glu Gin Leu Lys Ala Gly Leu Glu Leu 
2345 2350 2355 

Phe Tyr Lys Asp Gin Arg Ala Thr Asn Lys Lys Tyr Asn Ser Tyr 
' 2360 2365 2370 

Asn He Pro Ser He Tyr Ala Leu Met Leu Thr Asn Lys Asp Thr 
2375 2 380 2385 

Val Pro Arg Met Tyr Tyr Gly Asp Met Tyr Gin Asp Asp Gly Gin 
2390 2395 2400 

Tyr Met Ala Asn Lys Ser He Tyr Tyr Asp Ala Leu Val Ser Leu 
2405 ' 2410 ^ 2415 

Met Thr Ala Arg Lys Ser Tyr Val Ser Gly Gly Gin Thr Met Ser 
2420 2425 2430 

Val Asp Asn His Gly Leu Leu Lys Ser Val Arg Phe Gly Lys Asp 
2435 2440 2445 

Ala Met Thr Ala Asn Asp Leu Gly Thr Ser Ala Thr Arg Thr Glu 
2450 2455 2460 

Glv Leu Gly Val He He Gly Asn Asp Pro Lys Leu Gin Leu Asn 

2465 . - 2470 2475 - 

8/10 



20/3?- 



Asp Ser Asp Lys Val Thr Leu Asp Met Gly Ala Ala His Lys Asn 
2480 2485 2490 

Gin Lys Tyr Arg Ala Val lie Leu Thr Thr Arg Asp Gly Leu Ala 
2495 2500 2505 

Thr Phe Asn Ser Asp t Gin Ala Pro Thr Ala Trp Thr Asn Asp Gin 
2510? 2515 2520 

Gly Thr Leu Thr Phe. Ser Asn Gin Glu 'fie Asn Gly Gin Asp Asn 
2525? 2530 2535 

Thr Gin lie Arg Gly' Val Ala Asn Pro Gin Val Ser Gly ' Tyr Leu 
2540^ 2545 * 2550 

Ala Val Trp Val Pro,' Val Gly Ala " Ser Asp "Asn Gin Asp Ala* Arg ' 
2555 2560 2565 

Thr Ala Ala Thr Thr Thr Glu Asn His Asp Gly Lys Val Leu His 
2570 2575 2580 

Ser Asn Ala Ala Leu Asp Ser Asn Leu He Tyr Glu Gly Phe Ser 
2585 2590 " 2595 

Asn Phe Gin Pro Lys Ala Thr Thr His Asp Glu Leu Thr Asn Val 
2600 2605 2610 

Val He Ala Lys Asn Ala Asp Val Phe Asn Asn Trp Gly He Thr 
2615 2620 4 2625 

Ser Phe Glu Met Ala Pro Gin Tyr Arg Ser Ser Gly Asp His Thr 
2630 2635 2640 

Phe Leu Asp Ser Thr He Asp Asn Gly Tyr Ala Phe Thr Asp Arg 



2 64 5' 

Tyr Asp Leu Gly Phe 
2660 

Asp Leu Arg Ala Thr 



2650 2655 

Asn Thr Pro *Th'r' 'Lys* Tyr Gly Thr Asp "'(Sly " 
. 266S 2&70 

He Gin Ala Leu His' His Ala 'Asn Met* Gin 



2675 2680 2685 

Val Met Ala Asp Val Val Asp Asn Gin Val .tyr Asn Leu Pro Gly 

2690 2695 2700 

Lys Glu Val Val Ser Ala Thr Arg Ala Gly Val Tyr Gly Asn Asp 

2705 2710 2715 

Asp. Ala Thr Gly Phe- Gly Thr Gin Leu Tyr Val Thr Asn Ser Val 

2720- 2725 . 2730 
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Gly Gly Gly Gin Tyr Gin Glu Lys Tyr Ala Gly Gin Tyr Leu Glu 
2735 2740 2745 

Ala Leu Lvs Ala Lys Tyr Pro Asp Leu Phe Glu Gly Lys Ala Tyr 
2750 2755 . 2760 

Asp Tyr Trp Tyr Lys Asn Tyr Ala Asn Asp Gly Ser Asn Pro Tyr 
2765 * 2770 2775 

Tyr Thr Leu Ser His Gly Asp Arg Glu Ser lie Pro Ala Asp Val 
2780 2785- 2790 

Ala lie Lys Gin Trp Ser Ala Lys Tyr Met Asn Gly Thr Asn Val 
2795 2800 2805 

Leu Gly Asn Gly Met Gly Tyr Val Leu Lys Asp Trp His Asn Gly 
2810 2815 2820 

Gin Tyr Phe Lys Leu Aso Gly Asp Lys Ser Thr Leu Pro Gin lie 
2825 2830 2835 
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5941 GAT ATGTC TAC TAAT GC T T TT T CTACCAAAAAT GT T GCATTCAAT CATGACAGTAGCAG T 6000 

1981 DMSTNAFSTKN VAENHDSS.S 2000 

6001 T TC G ACCAT AC T G TTGATG GC T TCTT GACGGC AG AT ACT TGGT ATCGAC CAAAG TCAAT T 6060 

2001 FDHTV-'DGFLTADTWYRPKSI 2020 

6061 T TGGC TAAC GGG ACAACTT GGC GTGAT TC^AC TG ATAAGG AT A^GCGAt^T TAATCAC *3? ' " 6120"" 

2021 LANG T > T W R D S T DKDMRP L I T 2040 

6121 GTTTGGTGGCCAAATAAGAATGTTCAAGTCAACTACCTCAA'CTTCATGAAAGCAAATGG'C '• "6180 

2041 VWWPNKN'VQVNYLNFMKANG 2060 

6181 T T GT T GACAACAG CAG CACAAT ACACACTAC ATT CAG ATC AAT ATG ATT TG AACC AAGCT 6240 

2061 LLTTAAQY TLH SDQY DLNQA 2080 

624 1 GCACAAGATGTTCAAGTGGCCATTGAAAGGCGCATTGCGTCAGAGCATGGCACAGACTGG 6300 

2081 AQDVQVAI ERRIASEHGTDW 2100 

6301 TTACAGAAATTGTTGTTTGAATCACAAAATAATAACCCATCATTTGTGAAGCAACAATTC 6360 

2101 LQKLLFESQNNNPSFVKQQF 2120 

6361 ATTTGGAACAAGGATTCTGAATATCATGGTGGTGGTGATGCTTGGTTCCAAGGTGGTTAT 6420 

2121 XW'NKDSEYHGGGDAWFQGGY 2140 

64 21 C T G AAGT ATG G CAATAACCCACTCACACC AAC AACT AATT CTGAT TAT C GTC AACC T G GT 6480 

2141 LKYGNNPLTPTTNSDYRQPG 2160 

6481 AATGCATTTGATTTCTTGCTAGCCAACGACGTGGATAATTCTAATCCTGTTGTGCAAGCT 6540 

2161 NAFDFLLANDVDNSNPVVQA 2180 

6541 GAAAACTTAAAC TGG T T ACATT ACTTAATGAAC TT TGG CACCATCACTGC G GG TCAAG AT 6600 

2181 - £ N L N - W.. L H.-. Y L M- -N F- G -T- 1 I - T A G Q. -D- • 2200 *.- 

6601 GACGCTAATTTTGAfTAGTATTCGTATTGACGCTGTCGACTTTATTCATAATGATACAATC 6660 

2201 DANFD S I RI DAVDFIHND-TI. 2220- 

6661 CAACGTACTTATGATTATCTTCGT GATGCTTATCAAGTGCAACAAAGTGAAGCCAAAGCA 6720 

2221 QRTY DYLRDAY QVQQSEAKA 2240 

6721 AACCAGCACATTTC AT TGGT TG AAGCTG GCT T AG ACGC AG G T ACATCAACGATT CATAAT 6780 

2241 NQHISLVEAGLDAGTST I HN 2260 

6781 GATGCGTTAATTGAGTCAAACCTCCGTGAAGCAGCGACATTGTCGTTAACAAATGAACCT 6840" 

2261 DALIESNLREAATLSLTNEP 2280 

6841 GGT AAAAATAAACC ATTG ACGAATATGCTACAAG ACG T TGACGG CGGTAC GCT TATCACC 6900 

2281 GKNKPLTNMLQD'VDGGTLIT 2300 
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6901 GACCATACGCAGAATAGTACAGAAAATCAGGCGACACCAAACTATTCAATTATTCACGCG 

2301 DHTQNSTENQAT PNYSI I HA 

6961 CACGAT AAAGGTGTGCAAGAAAAAGTAGGTGCAGCCATTACTGATGCTACTGGTGCTGAT 

2321 HDKGVQEKVGAAITDATGAD 

7021 TGGACGAACTTTACAGATGAACAGTTAAAAGCCGGATTAGAGCTATTCTATAAGGATCAG 

2341 WTNFTDEQLKAG I/-ELFYK DQ 

7081 CGCGCAACAAACAAAAAGTATAATAGTTATAACATACCAAGTATTTATGCCCTGATGTTG 

2361 RATNKKYNSYNI PSIYALML 

7141 ACAAACAAAGATACTGTTCCTCGTATGTATTATGGGGATATGTATCAAGATGACGGACAG 

2381 TNKDTVPRMYY ^DMYQDDGQ 

7?01 TATATGGCAAACAAGAGTATCTACTATGATGCCTTAGTGTCATTAATGACGGCTCGTAAA 

2401 YMANKSIYYDALVSLMTARK 

7261 AGCTATGTCAGCGGTGGTCAAACTATGAGTGTTGACAATCATGGTTTGTTGAAGAGTGTC 

2421 SY'VSGGQTMSVDNHGLLKSV 

7321 CGTTTTGGAAAAGATGCGATGACAGCTAATGATTT AGGTACATCAGCTACGCGTACTGAG ♦ 

2441 R F G K D A M T A W D L G T SAT R T E 

7 38 1 GGTCTTGGTGTCATTATTGGTAATGATCCAAAGTTGCAACTTAATGATTCGGATAAAGTG 

2461 GLGVI. IGNDPKLQLNDSDKV 

7 441 ACACTGGATATGGGTGCAGCACATAAAAATCAAAAGTATCGCGCAGTTATCTTAACAACA 

2431 T LDMGAAHKNQK YRAVI LTT 

7501 CGTGATGGTTTGGC AACCTTT AATTCAGATCAAGCACCAACAGCTTGGACAAACG ATCAA 

2S01 RDGLATFNSDQAPTAWTNDQ 

7 561 GGAACGT T AAC ATT CT C AAAT C AAGAG A TTAACGG G C AAG ACAAT AC AC AAAT T CG TGGT 

2521 GTLTFSNQBINGQDNTQIRG 

7 621 GTTGCTAATCCGCAAGTTTCTGGTTATCTAGCTGTTTGGGTGCCTGTGGGTGCATCAGAC 

2541 VANPQVSGYLAVWVPVGASD 

7 681 AAT C AAG AT GC CCG TAC AGC AG C AACGAC AAC AG AAAATCAT G ATGGT AAAG T AT T AC AC 

2561 NQDARTAATTTENHDGKVLH 

7741 TCG AAT G CGGCAT T AGAT T C TAACCT T AT T T AT G AAG GTT T CTC T AACT T CCAACC T AAG 
2581 S NAALDSNLIYE GF SNFQ PK 

7 801 GCAACAACGCATGATGAACTTACGAACGTTGTAATTGCTAAAAATGCCGATGTCTTCAAT 

2601 AT THDELTNVV I AKNADVFN 

7861 AATTGGGGTATTACGAGTTTTGAAATGGCACCACAGTACCGTTCAAGTGGGGACCATACA 
2621 NWGITSFEMAPQYRSSGDHT 

7921 TTCTTGGATTCAACGATTGATAATGGTTATGCCTTCACTGATCGCTATGACTTAGGTTTC 
2641 FLDSTIDHGYAFTDRYDLGF 

7 981 AATACACCAACAAAGTATGGCACTGATGGTGATTTGCGTGCAACGATTCAAGCGCTACAT 
2661 NT PTKYGTDGDLRATIQALH 

8041 CATGCT AAT ATGCAAGTTATGGCTGACGTTGTTGATAACCAGGTCTAT AACT TACCTGGT 
2681 HANMQVMADVVDNQVYNLPG 
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8101 AAAGAAGTTGTTTCAGCAACACGAGCAGGTGTTTATGGTAATGACGACGCCACGGGCTTT 8160 

2701 KEVVSATRAGVYGNDDATGF 2720 

8161 GGAACGCAACTCTATGTGACTAACTCCGTTGGTGGTGGTCAATACCAAGAGAAATATGCT 8220 

2721 GTQLYVTNSVGGGQYQEKYA 2740 

8221 - GGAC AAT AC T TAG AAGCT CT GAAAGCAAAG TATC C AG ACC T CT TTG AGGG TAAG GCC TAT 8280 

2741 GQYLE,. ALKAKYP DLFEGKAY 2760 

8281 GATT ATTGGTATAAGAACTATGCAAATGATGGGTCAAATCCTT ACTATACATTGTCACAC 834 0 

2761 DYWYK. NYANDGSNPYYTLSH 2780 

8341 ' GG T G ACCGTG AATC T AT CCC AGCAGATGTTGCTrAT tAXg CAkl'G G^CftGCTXAG T?ATATG ' * ' 8400' "* ' 

2781 GDRES. IPADVAIKQWSAKYM 2800 

84 01 AACGGCACGAACGTTTTiGGGCAATGGTATGGGTTATGTATTGAAGGATTCGCATAATGGT * 8460 

2801 NGTNV LGNGMGYVLKDWHNG 2820 

84 61 CAATATTTCAAGCTTGATGGTGATAAATCAACATTACCTCAAATTTAA . 8508 • 

2821 Q Y FKL DG D KS T'L P Q I "* '2835 
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Fig. 10 



81 



361 
121 



ATGAGAGAC ATG AGGGT AATTTGTGACCG TAAAAAATTGT ACAAATCGGGCAAAGTAC T A 60 
MRDMRVICDRKKLYKSGKVL 20 



21 VTAGIFALMMFGVTTASVSA 
121 aaTACGATTGCAGTTGACACGAATCATAGCCGTACTTCAGCA^GATTAATAAGAGTGCC 
41 



1 8 1 gttgataaggttaatgatgacaagactactttaggagcggcaaaagtagtggcagtag 
61 vdkvnddkttlgaakvvava 80 

2 4 1 ACAACGCCAGCGACACCGGTAGC^GATAAAACAGTAAGTGCACCCGCAGCAGATAAGGCA 300 
TPATPVADKTVSA?. AADKA 100 



GTAGATACAACGTCATCAACGACACCTGCAACGGATAAGGCAGTAGATACAACGCCAACG 



4 2 1 G T AG AT AC AAC GC C AACG AC ACCT G CAGCAAAT AAAGCAGT AG AT ACAACG CC AGC G AC C 



120 



6 3 GTAACAGCCGGTATTTTTGCTTTGATGATGTTTGGCGTCACAACTGCTAGTGTTAGTGCA 



180 



NTIAVDTNHSRTSAQTNKSA 60 



240 



360 



301 GTAGATAC AACGTCAT UAft^bAL^^ i ia j. w ^™ -~ — 1 ~ n o « 

101 VDTTSSTTPATDKAVDTTPT 120 



AC AC CTGCAGC AG AT AAGGC AGT AGAT AC AACG C CAAC G AC AC C T GC AGC AGAT AAGGC A 4 2 0 
TPAADKAVDTTPTTPAADKA 140 



480 

A "V N KAVDTTPAT 160 



141 V D T T P T T 

4 8 1 GCTGCAACAGATAAGGCGGTAGCCACGCCAGCCACACCTGCAGCAGATAAGCTAGCAAAT 340 

161 AAT DKAVATPATPAADKLAN 180 

54 3 ACGACGCCTGCAACGGACAAGGCAGTAGCCACAACGCCAGCGACGCCGGTAGCAAATAAA 600 

181 TTPATDKAVATTPATPVANK 200 

601 G C AG CAGAC ACG AG TAGT AT TCAT GAT CAAC CAT T AG AT AC AAAT GT G CC AACT GATAAA 6 60 

201 AAD TSSIHDQPLDTNVPTDK 220 

661 T C AG C AAACCTCGTCTCG AC AACACAAAAAAG T ACGGAT AATC AACAAGT T AAGTC T AC A 720 

221 SAMLVSTTQKSTDNQQVKST 240 

721 GAAACATCTCATCTTCAAGAAATCAACGGTAAAACCTATTTTCTTGACGACAATGGTCAA 780 

241 ETSHLQEINGKTYFLDDNGQ 260 

7 8 1 GTTAAAAAGAACTTCACCGCTATTATTGACGGTAAAGTTCTATACTTTGATAAAACATCC 8 4 0 
261 VKKNFTAIIDGKVLYFDKTS 280 

8 4 1 GGCGAATTGACCGCAAATGCACCGCAAGTTACTAAGGGATTAGTAAATATTGATAATGCA 900 
281 GELTANAPQVT KGLVNIDNA 300 

301 CAT AACGCGGCTC ATG AT C T CACAGCT GAT AACT T CAC AAAT GTCGAT GG T T ACTT AACA 960 

301 HNAAHDLTADNFTNVDGYLT 320 

961 GCTAACAGTTGGTATCGTCCTAAGGACATCTTAAAAAACGGAACGACCTGGACACCAACA 1020 

321 ANSWYRPKDILKNGTTWTPT 340 
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4) 2£/3=t~ 

1021 ACAGCAGAAGATTTTCGACCATTGCTCATGTCTTGGTGGCCGGATAAGAATACGCAGGT A 1080 

341 TAEDFRPLLMSWWPDKNTQV 360 

1081 GCT TATCTACAATATATGCAATCAGTTGGTATGCT ACCTGACGAT GTTAAAGTATCAAAT 1 140 

361 AYLQYMQSVGMLPDDVKVSN 380. 

1141 GAT GAT AAT ATGAGC AC AT T G ACTG ATG CTGC T ATG ACT G T TC AAAAG AAT ATC GAATCG 1 2 00 

381 DDNMSTLTDAAMT-VQKNIES 40O 

1201 CGAATTGGTGTATCTGGAAAAACTGATTGGCTCAAGCAAGATATGAACAAACTGATTGAT 12 60 

401 RIGV. SGKTDWLKQDMNKLI D 420 

1261 TCAC AGG C AAAT TGGAAT ATTGATAGTG AATCAAAG GGT AAT GAT CAT T T AC AGGG TGGG 1320 

421 SQA-NWNIDSESKGNDHLQGG 440 

1321 G CAT TG T T ATAT G TGAAT G ATG AC AAAAC ACC T AACGCG AACT C AGAT TACCGTCTGTT A 1380 

441 ALLYVN DDKTPNANS DYRLL 4 60 

1381 AACCGTACACCAACCAACCAAACCGG CCAAATT ACTGATC CAAG TAAACAAG G T GG AT AT 144 0 

461 NRT P T NQTGQIT DPSKQGG Y 480 

14 41 GAG ATGT TAT T AGCT AATGATGT T GATAAT TC TAACCC TGT TGT ACAAGC TGAGC AAT T G 1500 

481 EMLLA'N'DVDNSNPVVQAEQL 500 

1501 AACTGGC TTCACTAC AT GATGAACATTGGTACTAT AGCTCAGAACGACCCAACAGCTAAT 15 60 

501 NWLHYMMNIGTIAQNDPTAN 520 

1561 TTTGACGGTTATCGTGTTGATGCGGTTGATAACGTTGATGCCGATCTCTTACAAATTGCT 1620 

521 FDGYRVDAVDNVDADLLQIA 540 

1621 GGTGATTACTTTAAAGCTGCATACGGTACTGGTAAAACTGAGGCAAACGCAAACAATCAT 168 0 

541 GDYFKAAYGTGKTEANANNH 560 

1681 AT T TCGAT CTTGG AAG AT T G GGATAAT AATG ATT CT GCG TAC AT T AAAG CC CAC GG G AAT 17 4 0 

561 ISILEDWDNNDSAYIKAHGN 580 

1741 AACCAATTGACAATGGATTTTCCAGCACACTTGGCTTTGAAATACGCCTTGAACATGCCT 1800 

581 NQLTMD FPAHLALKYALNM P 600 

1801 CTTGCCGCACAAAGTGGCCTAGAACCGCTAATTAATACAAGTCTTGTTAAGCGTGGGAAA 18 60 

601 LAAQS GLEPLINTSLVKRGK 620 

18 61 GATGCCACAGjAAAATGAAGCACAACCAAACTATGCCTTTATCCGTGCCCATGATAGTGAA 1920 

621 DAT&NEAQPNYAFIRAHDSE 640 

1921 G T GC AGACCGT T AT T G CACAAAT T ATT AAGG AT AAAATT AAC ACAAAAT CAGACG G CT TA 1980 

641 VQTVIAQIIKDKINTKSDGL 660 

* 

1981 ACT GTAACACCAG ATGAGAT TAAGCAAGCTTT C ACT ATTT ACAACG CCG ATGAATTAAAA 2040 

661 TVTP'DEIKQAFTIYNADELK 680 

2041 GCAGATAAGGAATATAC AGCATACAATATTCCTGCTTCTTACGCTGTATTGTTGACAAAC 2100 

681 ADKEYTAYNIPAS-YAVLLTN 700 

2101 AAGG AT ACT GTG CC ACG TGT TT ATTATGGTGATCTATTT TCTGATGATG GAC AG TAT ATG 2160 

701 KDTVPRVYYGDLFS DDGQYM 720 

2161 TCACAG AAG TCACC AT AC T ATGACGC C ATT ACGT CACT TTT GAAAAG CCG TAT CAAAT AT" 2220 

721 SQKSPYYDAITSLLKS RIKY" 740 
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2221 GT T G C T G GTGGTC AAAG TATG AAT ATG ACGT AC T T GCATGAG TG CT T T G ATCC AGC AAAA 2280 

741 VAGGQSMNMTYLH ECFDPAK 760 

2281 AATGAGACAAAGCCACAAGGTGTCTTAACATCAGTACGTT ACGGTAAAGGTGCGATGACG 234 0 

761 NETKPQGVLTSV. RYGKGAMT 780 

2341 GCTGACGATTTGGGTAATAGTGACACACGTCAACAAGGTATTGGTTTGGTGATTAATAAT 2400 

781 AD DLGNSDTRQ Q G IGL VINN 800 

24 01 AAGCCATTCTTGAATTTAAATGATGATGAACAAATTGTGCTCAATATGGGTGCTGCTCAC 24 60 

801 KPFLNLNDDEQI VL NM GAA H 820 

24 61 AAAAATCAAGCTTACCGACCACTTATGTTGACAACAAAATCTGGTCTTCAAATTTACGAT 2520 

821 KNQAYRPLMLTTKSGLQIYD 840 

2521 AAGGATGCCGGAGCGCCAGTTGTTTATACTAACGATGCTGGTCAACTTATTTTTAAGTCA 2580 

841 KDAGAPVVYTNDAGQL I FKS 860 

2581 GATATGGTCTATGGTGTCAGCAATCCACAGGTATCTGGTTATTTTGCTGCATGGGTACCA 2640 

861 DMV YGVSNPQVS'G Y FAAWV P 880 

2641 GTCGGTGCGAGTGATAGTCAAGATGCTAGAAC ACAAAGCAGCCAGTCAGAAACTAAGGAT 2700 

88 i VGASDSQDARTQ'SSQSETKD 900 

2701 GGCGATGTCTATCATTCAAATGCTGCGCTTGATTCTAATGTGATTTATGAAGGCTTCTCG 2760 

901 GDVYHSNAALDSNVIYEGFS 920 

2761 AATTTCCAAGCAATGCCTGAAAAGAATGATGACTTCACCAACGTAAAAATTGCTCAAAAT 2820 

921 NFQAMPEKNDDFTNVKIAQN 940 

2821 G C T AAAT T GT T TAAAG ATTT AGGG AT T ACAAGC T T T G AATT AGC ACCGC AAT ATCGTT C A 2880 

941 AKLFKDLGITSFELAPQYRS 960 

2881 AGTAC AG AT AAT AGTT T T TTG GAT T CGG T TAT CC AAAAC GGCTATGCC T T TAC TG ATC G A 294 0 

961 STDNSFLDSVIQNGYAFTDR 980 

2941 TATGATGTTGGCTATAATACGCCAACAAAATATGGTACAGTTGATCAACTTCTAGATAGT 3000 

981 YDVGYNTPTKYGTVDQLLDS 1000 

3001 CTAAGAGCATTACACGCACAAGGTATTCAGGCTATTAATGACTGGGTACCTGATCAAATT 3060 

1001 LRALHAQGIQAINDWVPDQI 1020 

3061 TAT AAT T T AC C TG G CG A AC AAAT C GT C ACC G C AG TT CGT ACAAAT GGT T C AGG T AAG T AC 3120 

1021 YNLPGEQIVTAVRTNGSGKY 1040 

3121 GATTATGAT TCAGTGAT TAATAACACGCT CTATGATTCACG AACAGTTGGGGGCGGCGAA 3180 

1041 DYDSVI NNTLYDS RTVGGGE 1060 

3181 T ACCAAGAAAAGTTTGGTGGCCTGTTCTTAGACCAGTTGAAAAAAGATTATCCTAGCTTG 3240 

1063 YQE K FGGLFL DQLKKDY PS L 1080 

324 1 TTTGAAACTAAGCAGATATCAACGAATCAGCCGATGAATCCGGATGTTAAAATTAAAGAA 3300 

1081 FETKQI STNQPMNPDVKTKE 1300 

3301 TGGTCTGCAAAGTACTTTAATGGTTCAAACATTCAAGGTCGTGGCGCTTGGTATGTACTT 3360 

1101 WSAKYFNGSN IQGRGAWYVL 1120 

3361 AAAG ACT GGG CAAC AAAT CAAT ATTT C AATGT GTCT AG T GAT AATG G AT TCTTGCCTAAA 3420 

1121 KDWATNQYFNVS S DNGFLPK 1140 
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34 21 CAGTTACTGGGTGAAAAAACAAGCACCGGCTTTATAACAGAAAATGGTAAGACTTCTTTC 34 80 

1141 QLL GEKTSTGFITENGKTS F 1160 

3481 T ACTCAACAAGT GGTTATC AAGC TAAAGATACCT TT AT TC AAG ATGG AACAAAT T G G TAT 354 0 

1161 YSTSGY. QAKDTFIQDGTNWY 1180 

3541 T AC T T TG AT AATGC AGC CT ATAT GTTGAC AG GTAAAC AAAAT AT CC ACG ATAAAAATTAT 3 600 

1181 YFDNAGYMLTGKQNIHDK NY 1200' 

3601 T ATT TC T T AC CT AATG G T G T GG AACT T CAAG ATG CTT ACC T T T T TG ATGG TAATCAAG AA 3660 

1201 YFLPNGVELQDAYLFDGNQE 1220 

3661 T T TT AC T AT AAT AMG CTGG GG AACAAGT TATG AACC AG T ATT ATCAAG AT AG TCAAAAT 3720 

1221 FYYNKAGEQVMNQYYQDSQN 1240 

3721 CAATGGCATTATTTCTTTGAAAATGGTCGCATGGCAATTGGCCTGACAGAAGTTCCGAAC 3780 

1241 QWHYFFENGRMAI GLTEVPN 1260 

3781 GC TG ATG GCACCC ATG T T AC ACAATAT T TTGATGC T AAT G GTGTC CAAAT T AAAG GC ACA 384 0 

1261 ADG THV TQYFDAN GVQ IKGT 1280 

3841 GCTATAAAAGATCAGAATAATCAATTACGCTATTTTGATGAGGCCACAGGTAATATGGTG 3900 

1281 AIKDQNNQLR YFDEATGNMV 1300 

3901 GTTAATTCATGGGGACAGTTAGCAGATAAGTCTTGGCTTTACCTTAATGCACAAGGCGTT 3960' 

1301 VNSWGQLADKSWLYLNAQGV 1320 

3961 G C TGTG ACTG GT AACCAAAAAATTGAT GGTG AAG AGTACTAC TTCAAT GC TGATG G T AAG 4 020 

1321 AVTGNQK IDGEEYYFNADGK 1340 

4 021 CAAGTTAAAGGCAATGCAATCATCGATAATAATGGT GATCAACGT TATTATGATGG TGAT 4 080 

1341 QVKGNAI IDNNGDQRYYDGD 1360 

4 081 AAGGGTGTCATGGTAGTTAATTCATGGGGTGAGTTGCCAGATGGCTCATGGTTATATTTG 4140 

1361 KGVMVVNSWGELPDGSWLYL 1380 

4141 AATGACAAAGGTATTGCTGTAACAGGCCGTCAAGTCATTAATAATCAAGTTAATTTCTTT 4200 

1381 NDKGIAVTGRQVINNQVNFF 1400 

4201 GGTAATG AT GGT AAGCAAAT C AAAGATGCCT TT AAATTATTAT CC GATG G T T CAT GGG T G 4260 

14 01 GNDGKQI KDAFKLLSDGSWV 14 20 

4261 TATTTGGATGATAAGGGCCTGATAACAACTGGAGCCAAAGTTATCAATGGTCTAAATATG 4320 

1421 YLDDKGLITTGAKVINGLNM 1440 

4321 TTTTTTGATAAAGACGGTCATCAAATCAAAGGTGATGCCAGCACGGATGCCAATGGTAAG 4380 

1441 FFDKDGHQI KGDASTDANG K 1460 

4381 CGCCATTATTATGACAAAAATGATGGTCATCTTGTCACAAATTCATGGGGTGAGTTGCCA 4 4 40 

14 61 RHYYDKNDGHLVTNSWGELP 14 80 

4 4 41 GATGGTTCATGGTTATATCTAGAAGAACAAGGTGATGCTGTTACTGGTCAACGTGTGATT 4500 

1481 DGSWL YLEEQGDAVTGQRVI 1500 

4501 G ATGG CAAGACACG CT AT T T T GATGAAGATGGCAAACAAATTAAAAATAG CC TAAAAACG 4560 

1501 DGKTRYFDE DGKQIKNSLKT 1520 

4561 CTGGCC AAT GGCG AT AAGATTTATCTTG ATGG TGAT GGGGTTGCTGCAACAGGCTTACAft 4 620 

1521 L ANGDKIYL. DGDGVAATGLQ 1540 
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4 621 CATGTGGGCGATAAAATCATGTATTTTGATGAAGATGGCAAACAAGTTGTTGGCAAGTTT 4 680 

1541 HVGDKIMYFDEDGKQVVGKF 1560 

4 681 GTATCAGCAAAAGATGGTTCATGGTATTACTTAAATCAGGATGGTGTTGCCGCGGTTGGT 47 4 0 

1561 VSAKDGSWYYLNQDGVAAVG 1580 

4741 CCAAGCAGCATTAATGGACAATCACTTTACTTTGATCAAGATGGTAAACAAGTTAAATAT A 800 

NGOSLYFDQDGKQVKY 1600 



1581 



4801 AA' 



t TGAAGTTCGTAATAGTGATGGAACAACCAACTATTACACAGGATTAACGGGTGAAAAG 



4860 



1601 NEVRNS DGTTNY YTGLTGEK 1620 

4861 TTAACGCAAGACTTCGGTGAACTACCAGATGGTTCATGGATTTATCTTGATGCGCAAGGT 4 920 

1621 LTQDFGELPDGSWIYLDAQG 1640 

4 921 CATACAGTAACTGGTGCACAAATCATTAACGGTCAAAATCTTTACTTTAAGGCTGACGGC 4 980 

1641 HTVTGAQIINGQNLYFKADG 1660 

4 981 CAGCAAGTTAAAGGTCATGCTTATACTGACCAATTAGGTCATATGCGTTTTTATGATCCT 5040 

1661 QQVKGHAYT DQLGHMRFYD P 1680 

5041 GATTCAGGTGATATGTTGAGTAATCGCTTTGAACAAATCACACCTGGTGTATGGGCTTAC 5100 

1681 DSGDMLSNRFEQ ITPGVWAY 1700 

5160 



5101 TTT 
1701 



GGTGCTGATGGTGTGGCCATAACTGGACAACATGACATAAATGGTCAGAAGCTATTC 



FGADGVAITGQHDINGQKLF 1720 

5161 TTTGATGAGACAGGATATCAAGTTAAAGGTTCGCAACGTACAAT AGATGGTACGTT ATAC 5220 

1721 FDETGYQVKGSQRTIDGTLY 1740 

5221 AGCT TCGATTCTC AAACTGGTAACCAAAAACGCGTACAGACAACATTGTTGCCACAAGCA 5280 

17-51 SFDSQTGNQXRVQTTLLPQA 1760 

5281 G GT CAC TAT AT C ACGAAAAATGG T AACGAT T GGCAGT ATGAT AC C AAT GG T GAAC TAG CG 534 0 

1761 GHYITKNGNDWQYDTNGELA 1780 

534 1 AAGGGTCTG CGTCAAGAT AG CAATGGTAAGTTGCGT T ACTTTGATT TGACAACCGGCAT A 5400 

1781 KG LRQDSNG KLRY FDLTTG I 1800 

5401 CAAGCGAAAGGCCAATTTGTTACAATTGGCCAAGAAACTTATTACTTTAGTAAAGATCAC - 54 60 

1801 QAKGQFVTIGQETYYFSKDH 1820 

54 61 GGGGATGCGC AGT TAT TGCCAATGGTCACTG AAGG GCAT T ACGGT ACAAT AACACT CAAG 5520 

1821 GDAQLLPMVTEGHYGTITLK 1840 

5521 CAAGGTCAAGACACCAAAACAGCCTGGGTTTACCGTGATCAAAATAATACTATTTTGAAG 5580 

1841 QGQDTKTAWVYRDQNNTILK 1860 

5581 GGATTGCAAAAT ATCAATGGCACGTTGCAATTCTTTGATCCATATACAGGTGAACAACTT 5640 

1861 GLQNINGTLQFFDPYTGEQL 1880 

5641 AAGGGTGGCGTAGCAAAGTATGACGACAAGCTCTTT T ACT T TGAAT C AGGT AAAG G T AAT 5700 

1831 KGGVAKYDDKLFYFESGKGN 1900 

5701 CTTGTTAGCACCGTAGCAGGTGACTATCAGGATGGTCATTATATTTCCCAAGATGGCCAA 5760 

1901 LVSTVAGDYQDGHYISQDGQ 1920 

5761 ACACGTTACGCAGATAAGCAAAATCAGCTTGTAAAGGGACTTGTTACTGTTAATGGGGCA 5820 

1921 TRYADKQNQLVKGLVTVNGA 1940 
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5821 TTACAATACTTTGATAACGCTACTGGTAACCAAATAAAAAATCAACAAGTTATTGTTGAT 5880 

1941 LQYFDNATGNQI KNQQVIVD 1960 

5881 GGC AAGACG T ACT AT T T T GACGAT AAAGG CAAT GGT G AATACT T ATTC ACT AATACAT TA 594 0 

1961 GKTY-YFDDKGNGEYLFTNTL 1980 

5941 GATATGTCTACTAATGCTTTTTCTACCAAAAATGTTGCATTCAATCATGACAGTAGCAGT 6000 

1981 DMS TNAFS.TKNVAFNH D S S S 2000 

6001 TTCGACCATACTGTTGATGGCTTCTTGACGGCAGATACTTGGTATCGACCAAAGTCAATT 6060 

2001 FDHTVDGFLTADTWYRPKS I 2020 

6061 TTGGCTAACGGGACAACTTGGCGTGATTCGACTGATAAGGATATGCGACCATTAATCACT 6120 

2021 LANGTTWRDSTDKDMRPLI T 2040 

6121 GTTTGGTGGCCAAATAAGAATGTTCAAGTCAACTACCTCAACTTCATGAAAGCAAATGGC 6180 

2041 V W W P N KN V Q V N Y L N FM KAN G 2060 

6181 TTG TT G ACAACAG CAG CACAAT ACACACT ACATT CAG AT CAATATG ATTTG AACC AAG CT 624 0 

2061 LLTTAAQYTLHSDQYDLNQA 2080 

6241 G CACAAGATG T TCAAG T GG CCATT GAAAGG CGC ATT GC G TCAG AGCAT GGCACAGACT GG 6300 

2081 AQDVQVA IERRIASEHGTDW 2100 

6301 TTACAGAAATTGTTGTTTGAATCACAAAATAATAACCCATCATTTGTGAAGCAACAATTC 6360 

2101 LQKLLFE SQNNNPSFVKQQ F 2120 

6361 ATTTGGAACAAGGATTCTGAATATCATGGTGGTGGTGATGCTTGGTTCCAAGGTGGTTAT 6420 

2121 IWNKDSEYHGGGDAWFQGGY 2140 

6421 CTGAAGTATGGCAATAACCCACTCACACCAACAACTAATTCTGATTATCGTCAACCTGGT 6480 

2141 LKYGNNPLTPTTNSDYRQPG 2160 

6481 AATGCATTTGATTTCTTGCTAGCCAACGACGTGGATAATTCTAATCCTGTTGTGCAAGCT 654 0 

2161 NAFDFL LANDVDNSNPVVQA 2180 

654 1 G AAAAC TT AAACTGGT TAC ATT ACTT AATGAAC T TTGG CACCATCAC T GC G GG TCAAG AT 6600' 

2181 ENLNWLHYLMNFGTITAGQD 2200 

6601 GACGCTAATTTTGATAGTATTCGTATTGACGCTGTCGACTTTATTCATAATGATACAATC 6660 

2201 DAN FDS I RIDAVDFIHNDT I 2220 

6661 CAACGTACTTATGATTATCTTCGTGATGCTTATCAAGTGCAACAAAGTGAAGCCAAAGCA 6720 

2221 QRTY, DYLRDAYQVQQSEAKA 2240 

6721 AACCAGCACATTTCATTGGTTGAAGCTGGCTTAGACGCAGGTACATCAACGATTCATAAT 6780 

2241 NQHISLVEAGLDAG J TSTIHN ' 2260 

6781 GATGCGTTAAT TGAGTCAAACCTCCGTGAAGCAGCGACAT TGTCGTTAACAAATGAACCT 68 4 0 

2261 DALIESNLREAATLSLTNEP 2280 

684 1 GG T AAAAAT AAACC ATTG ACG AATAT G CT ACAAGACG T T G ACGGCGGTACG CT TATCACC 6900 

2281 GKNK'PLTNMLQDVDGGTLI T 2300 

6901 GACCATACGCAGAATAGTACAGAAAATCAGGCGACACCAAACTATTCAATTATTCACGCG 6960 

2301 DHTQNSTENQATPNYS I IHA 2320 

6961 CACGATAAAGGTGTGCAAGAAAAAGTAGGTGCAGCCAT TACT GAT GCT ACT GGTGCTGAT* 7020 

2321 HDKGVQE KVGAAI TDATGAD 2340 



1076 



31/3?- 

7071 TGGACGAACTTTACAGATGAACAGTTAAAAGCCGGATTAGAGCTATTCTATAAGGATCAG 7080 

2341 WTNFTDEQL KAGLELFYKDQ 2360 

7 081 CGCGCAACAAACAAAAAGTATAATAGTTATAACATACCAAGTATTTATGCCCTGATGTTG 714 0 

2361 RATNKKYNSYN I PSI YALM h 2380 

714 1 ACAAACAAAGATACTG7 TCCTCGTATGTATTATGGGGATAT GT ATCAAGATG ACGG ACAG 7200 

2381 T N KDTVPRMYY.GDMYQDDGO 2400 

7201 TATATGGCAAACAAGAGTATCTACTATGATGCCTTAGTGTCATTAATGACGGCTCGTAAA 7260 

240^ YMANKSIYYDA.LVSLMT A R K 2420 

7261 AGCTATGTCAGCGGTGGTCAAACTATGAGTGTTGACAATCATGGTTTGTTGAAGAGTGTC 7 320 

2421 SYVSGGQTMSVDNHGL LKSV 2440 

7321 CGTTTTCGAAAAGAT GCGATGACAGCTAATGATTTAGGTACATCAGCTACGCGTACTG AG 7380 

2441 RFGKDAMTANDL.GTS. ATRTE 2460 

7381 GGTCTTGGTGTCATTATTGGTAATGATCCAAAgTTGCAACTTAATGATTCGGATAAAGTG 7 440 

2461 GLGVIIGNDPK LQLNDSDKV 2480 

7 441 ACACTGGATATGGGTGCAGCACATAAAAATCAAAAGTATCGCGCAGTTATCTTAACAACA 7500 

2481 TLDMGAAHKNQKYRAVILTT 2500 

7501 CGTGATGGTTTGGCAACCTTTAATTCAGATCAAGCACCAACAGCTTGGACAAACGATCAA 7560 

2501 RDGLATFNSDQAPTAWTNDQ 2520 

7*61 GGAACG T T AACAT TC T CAAATC AAGAG ATT AAC GG GCA AGACAAT AC AC AAAT T C GTG GT 7 620 

2521 GTLTFSNQEINGQDNTQIRG 2o40 

7 62 1 GTTGCTAATCCGCAAGTTTCTGGTTATCTAGCTGTTTGGGTGCCTGTGGGTGCATCAGAC 7 680 

2541 VANPQVSGYLAVWVPVGASD 2560 

7 681 AATCAAGATGCCCGTACAGCAGCAACGACAACAGAAAATCATGATGGTAAAGTATTACAC 7740 

2561 NQDARTAATTTENHDGKVLH 2580 

7741 t CG AAT G C GGCAT TAG AT TCTAACCTT AT TT AT GAAGGTTTCTCTAACTTCCAACCTAAG 7800 

2581 SNAALDSNLIYEGFSNFQPK 2600 

7801 GCAACAACGCATGATGAACTTACGAACGTTGTAATTGCTAAAAATGCCGATGTCTTCAAT 7860 

2601 ATTHDELTNVVIAKNADVFN 2620 

7861 AATTGGGGTATTACGAGTTTTGAAATGGCACCACAGTACCGTTCAAGTGGGGACCATACA 7920 

2621 NWGTTSFEMAPQYRSSGDHT 2640 



7921 T 
2641 



TCTTGGATTCAACGATTGATAATGGTTATGCCTTCACTGATCGCTATGACTTAGGTTTC 



7980 



DST I DNGYAFTD R Y DL G F 2660 

7 981 AATACACCAACAAAGTATGGCACTGATGGTGATTTGCGTGCAACGATTCAAGCGCTACAT 8040 

2661 NT pTKYGTDGDIiRAT I QALH 2680 

8041 CATGCTAATATGCAAGTTATGGCTGACGTTGTTGATAACCAGGTCTATAACTTACCTGGT 8100 

2681 HAWMQVMADVVDNQVYNLPG 2700 

8101 AAAGAAGTTGTTTCAGCAACACGAGCAGGTGTTTATGGTAATGACGACGCCACGGGCTTT 8160 

2701 KEVVSATRAGVYGNDDATGF 2720 

8161 GGAACGCAACTCTATGTGACTAACTCCGTTGGTGGTGGTCAATACCAAGAGAAATATGCT 8220 

2721 GTQLYVTNSVGGGQYQEKYA 2740 
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8221 G GACAAT ACTT AGAAGC TC T G AAAGCAAAGT ATCC AGAC CTC T TTGAG GG T AAG GC CT AT 8280 

2741 GQYLEALKAKYPDLFEGKAY 2760 

8281 GATTATTGGT ATAAGAACTATGCAAATGATGGGTCAAATCCTTACTATACATTGTCACAC 8340 

2761 DYWY KNYANDGSNPYYTLSH 2780 

8341 GGTGACCGTGAATCTATCCCAGCAGATGTTGCTATTAAGCAATGGTCAGCTAAGTATATG 8400 

2781 G DR E^S I P A DV -A I KQW-S A KY M • 2800 

8401 AACGGCACGMCGTTTTGGGCAATGGTATGGGTTATGTATTGAAGGATTGGCATAATGGT 84 60 

2801 NGTN VLGNGMGYVLKDWHNG 2820 

84 61 CAATATTTCAAGCTTGATGGTGATAAATCAACATTACCTCAAATTT " * 'g50'6 ' 

2821 QYFK LDG DKSTLPQI *. 2835 



33/37- 
11 

a * SGKju@nce ; dtu gene ds*5J 

1 AATAATCTGT CTCCATTGCT • TTCAAAATAA TAATAGTTAA TTATTATCAT 

51 GGAACAATCA ATATTTTACT ; TATATTCACT A TTGAAT ATC CTTTTTTGCA 

101 TAAAT CTCTA GAGCCGATTT ■ TTTGGGTTAT ACAATGAATT GGTAAAGGTT - 

151 AATCATTTTT ACAAAACCAT ; GGTGGTTTTT TATTTTTTCTAAAAXTACCG 

201 AACTAGAGGA AGAGAAAA^AG^AGTT GT^GAGA^CMGAGGGTA 

i 

251 ATOTGTGACC GTAAAAAATT • GTACAAATCG GGCAAAGTAC TAGTAACAGC 
301 CGGTATTOTT GCTTTGATGA TGTTTGGCGT CACAACTGCT AGTGTTAGTG 
351 CAAATACGAT TGCAGOTGAC ■ ACGAATCATA GCCGTACTTC AGCACAGATT 
401 AATAAGAGTG CCGTTGATAA • GGTTAATGAT GACAAGACTA CTTTAGGAGC 
451 GGCAAAAGTA GTGGCAGTAG • CCACAACGCC AGCGACACCG GTAGCAGATA 
501 AAACAGTAAG TGCACCCGCA GCAGftlAAGG CAGTAGATAC AACGTCATCA 
551 ACGACACCTG CAACGGATAA 1 GGCAGTAGAT ACAACGCCAA CGACACCTGC 
601 AGCAGMAAG GCAGTAGATA • CAACGCCAAC GACACCTGCA GCAGATAAGG 
651 CAGTAGATAC AACGCCAACG • ACACCT GCAG CAAATAAAGC AGTAGATACA 
701 ACGCCAGCGA CCGCTGCAAC .AGATAAGGCG GTAGCCACGC CAGCCACACC 
751 TGCAGCAGAT AAGCTAGCAA , ATACGACGCC TGCAACGGAC AAGGCAOTAG 
801 CCACAACGCC AGCGACGCCG i GTAGCAAATA AAGCAGCAGA CACGAGTACT 
851 ATT CAT GAT C AACCATTAGA ' TACAAATGTG CCAACTGATA AATCAGCAAA 
901 CCTCGTCTCG ACAACACAA& AAAGTACGGA TAATCAACAA GTTAAGTCTA 
951 CAGAAACATC TCATCTTCAA ' GAAATCAACG GTAAAACCTA TTTTCTTGAC 
1001 GACAATGGTC AAGTTAAAAA ! GAACTTCACC GCTATTATTG ACGGTAAAGT 
1051 TCTATACTTT GATAAAACAT CCGGCGAATT GACCGCAAAT GCACCGCAAG 
1101 TTACTAAGGG ATTAGTAAAT iATTGATAATG CACATAACGC GGCTCATGAT 
1151 CTCACAGCTG ATAACTTCAC 'AAATGTCGAT GGTTACTTAA CAGCTAACAG 
1201 TTGGTATCGT CCTAAGGACA TCTTAAAAAA CGGAACGACC TGGACACCAA 
1251 CAACAGCAGA AGATTTTCGA CCATTGCTCA TGTCTTGGTG GCCGGATAAG 
13 OX AATACG CAGG TAGCTTATCT ACAATATATG CAATCAGTTG- GTATGCTACC 
1351 TGACGATGTT AAAGTATCAA AT GAT GAT AA" TATGAGCACA TTGACTGATG 
~?t~i§'l~ CT C^f ^GAC" TCTT(^CaAG ~r£!E&CEr£^ CGCGAATTGG TGTATCTGGA 
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3001 AGCAATGCCT GAAAAGAATG i ATGACTTCAC CAACGTAAAA ATTGCTCAAA 

3051 ATGCTAAATT GTTTAAAGAT ITTAGGGATTA CAAGCTTTGA ATTAGCACCG 

3101 CAATATCGST CAAGTACAGA • TAATAGTTTT TTGGATTCGG TOATCCAAAA 

3151 CGCCTATGCC TTTACTGATC iGATATGATGT TGGCTATAAT ACGCCAACAA 

3201 AAIATGGTAC AGTTGATCAA CTTCXAGATA GTCTAAGAGC ATTACACGCA 

3251 CAAGGTATTC AGGCTATTAA TGACTGGGTA CCTGATCAAA TTTATAATTT 

3301 ACCTGGCGAA CAAATCG7CA CCGCAGTTCG TACAAATGGT TCAGGTAAGT 

3351 ACGAT^ATGA TTCAGTGATT AAITAACACGC TCTATGATTC ACGAACAGTT 

3401 GGGGGCGGCG AATACCAAGA AAAGTTTGGT GGCCTGTTCT TAGACCAGTT 

3451 GAAAAAAGAT TATCCTAGCT TGTTTGAAAC TAAGCAGATA TCAACGAATC 

3501 AGCCGATGAA TCCGGATGTT AAAATTAAAG AATGGTCTGC AAAGTACTTT 

3551 AATGGTTCAA ACATTCAAGG TCGTGGCGCT TGCTATGTAC TTAAAGACTG 

3601 GGCAACAAAT CAATATTTCA ATGTGTCTAG TGATAATGGA TTCTTGCCTA 

3651 AACAGTTACT GGGTGAAAAA ACAAGCACCG GCTTTATAAC AGAAAATGGT 

3701 AAGACTTCTT TCTACTCAAC ■AAGTGGTTAT CAAGCTAAAG ATACCTTTAT 

3751 TCAAGAZPGGA ACAAATTGCT ATTACTTTGA TAATGCAGGC TATATGTTGA 

3801 CAGGTAAACA AAATATCCAC GATAAAAATT ATTATTTCTT ACCTAATGGT 

3851 GTGGAACTTC AAGATGCTTA CCTTTTTGAT GGTAATCAAG AATTTTACTA 

3901 TAATAAAGCT GGGGAACAAG "TTAT GAACCA GTATTATCAA GATAGTCAAA 

3951 ATCAATGGCA TTATTTCTTT GAAAATGGTC GCAIGGCAAT TGGCCTGACA 

4001 GAAGTTCCGA ACGCTGATGG CACCCATGTT ACACAATATT TTGATGCTAA 

4051 TGGTGTCCAA ATTAAAGGCA "CAGCTATAAA AGATCAGAAT AATCAATTAC 

4101 GCTATTTTGA TGAGGCCACA GGTAATATGG TGGTTAATTC ATGGGGACAG 

4151 TTAGCAGATA AGTCTTGGCT TTACCTTAAT GCACAAGGCG TTGCTGTGAC 

4201 TGGTAACCAA AAAATTGATG GTGAAGAGTA CTACTTCAAT GCTGATGGTA 

4251 AG CAAGTTAA AGGCAATGCA ATCATCGATA ATAATGGTGA TCAACGTTAT 

4301 TATGATGGTG ATAAGGGTGT CATGGTAGTT AAOTCATGGG GTGAGTTGCC 

4351 AGATGGCTCA TGGTTATATT TGAATGACAA AGGTATTGCT GTAACAGGCC 

4401 Gl'CAAGTCAT TAA2AATCAA . GTTAATTTCT TTGGTAATGA TGGTAAGCAA 

~4451-/ ATCAAAGASG eCTTSMATT -ATTAICCGAfr GGT.TCATGGG TG!EATTTGGA 
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4501 TGATAAGGGC CTGATAACAA |CTGGAGCCAA AGTTATCAAT GGTCTAAATA 
4551 TGTTTTTTGA TAAAGACGGT JCATCAAATCA AAGGTGATGC CAGCACGGAT 
4601 GCCAATGGTA AGCGCCATTA iTTAEGACAAA AATGATGGTC ATCTTGTCAC 
4651 AAATTCRTGG GOTGAGTTGC CAGATGGTTC ATGGTTATAT CTAGAAGAAC 
4701 AAGGTGATGC TGTTACTGGT : CAACGTGTGA TTGATGGCAA GACACGCTAT 
4751 TTTGATGAAG ATGGCAAACA ARTTAAAAAT AGCCTAAAAA CGCTGGCCAA 
4901 TGGCGATAAG ATTTATCTTG ATGGTGKPGG GGTTGCTGCA ACAGGCTTAC 
4851 AACATGTGGG CGATAAAATC ATG5ATTTTG ATGAAGATGG CAAACAAGTT 
4901 GTTGGCAAGT TTGTAXCAGC A&AAGATGGT TCATGGTATT ACTTAAATCA 
4951 GGATGGTGTT GCCGCGGTTG GTCCAAGCAG CATTAATGGA CAATCACTTT 
5001 ACTTTGATCA AGATGGTAAA CAAGTTAAAT ATAATGAAGT TCGTAATAGT 
5Q51 GATGGAACAA CCAACTATTA CACAGGATTA ACGGGTGAAA AGTTAACGCA 
5101 AGACTTCGGT GAACTACCAG JVTGGTTCATG GATTTATCTT GATGCGCAAG 
5151 GTCATACACT AACTGGTGCA CAAATCATTA ACGGTCAfcAA TCTTTACTTT 
5201 AAGGCTGACG GCCAGCAAGT TAAAGGTCOT GCTTATACTG ACCA&TTAGG 
5251 TCATATGCGT TTTTAfFGATC CTGATTCAGG TGATATGTTG AGTAATCGCT 
5301 TTGAACAAAT CACACCTGGT GTATGGGCTT ACTTTGGTGC TGATGGTGTG 
535 1 GCCATAACTG GACAACATGA :CATAAATGGT CAGAAGCTAT TCTTTGATGA 
5401 GACAGGATAT CAACTTAAAG GTTCGCA&.CG TACAATAGAT GGTAC GTT AT 
5451 ACAGCTTCGA TTCTCAAACT GGTAACCAAA AACGCGTACA GACAACATTG 
5501 TTGCCACAAG CAGGTCACTA TATCACGAAA AATGGTAACG ATTGGCAGTA 
5551 TGATACCAAT GGTGAACTAG CGAAGGGTCT GCGTCAAGAT AGCAATGGTA 
5601 AGTTGCGTTA CTTTGATTTG ACAACCGGCA TACAAGCGAA. AGGCCAATTT 
5651 GTTACARTTG GGCAAGAAAC 'TTATTACTTT AGTAAAGATC ACGGGGATGC 
5701 GCAGTTATTG CCAATGGTCA CTGAAGGGCA TTACGGTACA ATAACACTCA 
5751 AGCAAGGTCA AGACACCAAA ACAGCCTGGG TTTACCGTGA TCAAAATAAT 
5801 ACTAtfTTTGA AGGGATTGCA AAA3MCAM* GGCACGTTGC AA37TCTTTGA 
5851 T C CAT AT ACA GGTGAACAAC TTAAGGGTGG CGTAGCAAAG TATGACGACA 
5901 AGCTCTTTTA CTTTGAATCA • GGTAAAGGTA ATCTTGTTAG CACCGTAGCA 
5951 GCTGACTATC AGGATGGTCA .TTATATTTCC CAAGATGGCC AAACAC GT T A 
6001 CGCAGATAAG CAARATOAGC ; TT GTAAAGGG ACTTGTTACT GTTAATGGGG 
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6051 CAITACAATA CTTTGATAAC GCTACTGGTA ACCAAATAAA AAATCAACAA 
6101 GTTATTGTTG ATGGCAAGAC GTACTATTTT GACGATAAAG GCAATGGTGA 
6151 ATACTTATTC ACTAATACAT TAGATATGTC TACTAATGCT TTTTCTACCA 
6201 AAAATGTTGC ATTCAATCAT GACAGTAGGA GTTTCGACCA TACTGTTGAT 
. 6251 GGCTTCTTGA CGGCAGATAC TTGGTATCGA CCAAAGTCAA TTCTGGCTAA 
6301 CGGGACAACtf TGGCGTGATT CGACTGATAA GGATATGCGA CCMTAATCA 
6351 CTGTTTGGTG GCCAAATAAG ^ATGTTCAAG TCAACCACCT CAACTTCATG 
6401 AAAGCAAATG GCTTGTTGAC AACAGCAGCA CAATACACAC TACATTCAGA 
6451 TCAATATGKT TTGftACCAAG CXGCACAAGA TGTTCAAGTG GCCATTGAAA 
.6501 GGCGCATTGC GTCAGAGCAT GGCACAGACT GGTTACAGAA ATTGTTGTTT 
6551 GAATCACAAA A3AAXAACCC ATCATTTGTG AAGCAACAAT TCATTTGGAA 
6601 CAAGGATTCT GAATATCATG pTGGTGGTGA TGCTTGGTTC CAAGGTGGTT 
6651 ATCTGAAGTA TGGCAAIAAC bCACTCAGAC CAACAACTAA TTCTGATTAI 
6701 CGTCAACCTG GTAATGCATT TGATTTCTTG CTAGCCAACG ACGTGGATAA 
6751 TTCTAATCCT GTTGTGCAAG CTGAAAACTT AAACTGGTTA CACTACTTAA 
68 01 TCSAACTTTGG CACCATCACT GCGGGTCAAG ATGACGCTAA TTTTGATAGT 
6851 ATTCGTATTG ACGCTGTCGA CTTTASTCAT AATGATACAA TCCAACGTAC 
6901 T!EATGATrAT CTTCGTGATC jCTTATCAAGT GCAACAAAG* GAAGCCAAAG 
6^51 CAAACCAGCA CATTTCATTG GTOOAAGCTG GCTTAGACGC AGGTACATCA 
7001 ACGATTCAIA ATGATGCGTT AATTGAGTCA AACCTCCGTG AAGCAGCGAC 
7051 ATTGTCGTTA acaaatgaac ctggtaaaaa TAAACCATTG ACGAATATGC 
7101 TACAAGACGT TGACGGCGGT ACGCTTATCA CCGACCATAC GCAGAATAGT 
7151 ACAGAAAATC AGGCGACACC AAACTATTCA ATTATTCACG CGCACGATAA 
,7201 AGGTGTGCAA GAAAAAG^AG GTGCAGCCAT TACTGATGCT ACTGGTGCTG 
7251 ATTGGACGAA CTTTACAGAT .GAACAGTTAA AAGCCGGATT AGAGCTATTC 
7301 ^CAAGGATC AGCGCGCAAC AAACAAAAAG TATAATAGTT AXAACAIACC 
7351 AAGTAMTAT GCCCTGATCT [TGAGAAACAA AGATACTGTT CCTCGTATGT 
7401 ATHATGGGGA TATGTATCAA JGAIPGACGGAC AGTAJEATGGC AAACAAGAGT 
7451 ATCEACTATG ATGCCTTAGT jGTCATTAATG ACGGCTCGTA AAAGCTATCT 
7501 CAGCGGTGGT CRAACTATGA -GTGTTGACAA TCOTGGTTTG TTGAaSAGTC 
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7 551 TCCGTTTTGG AAAAGATGCG ATGACAGCTA AT GAT TTAGG TACATCAGCT 

7601 ACGCGTACTG ACGGTCTTGG TGTCATTATT GGTAATGATC CAAAGTTGCA 

7651 ACTTAATGAT TCGGATAAAG TGACACTGGA TATGGGTGCA GCACATAAAA 

7701 ATCAAAAGTA TCGCGCAGTT ATCTTAACAA CACGTGATGG TTTGGCAACC 

7751 TTTAATTCAG ATCAAGCACC AACAGCTTGG ACAAACGATC AAGGAACGTT 

7801 AACATTCTCA AATCAAGAGA TTAACGGGCA AGACAATACA GAAATTCGTG 

7851 GTGTTGCTAA TCCGCAAGTT TCTGGTTATC TAGCTGTTTG GGTGCCTGTG 

7901 GGTGCATCAG ACAATCAAGA TGCCCGTACA GCAGCAACGA CAACAGAAAA 

7951 T CAT GAT G GT AAAGTAT T AC ACTCGAATGC GGCATTAGAT TCTAACCTTA 

BO01 TTTATGAAGG TTTCTCTAAC TTCCAACCTA AGGCAACAAC GCATGATGAA 

8051 CTTACGAACG TTGTAATTGC TAAAAATGCC GATGTCTTCA ATAATTGGGG 

8101 TATTACGAGT TTTGAAATGG CACCACAGTA CCGTT CAAGT GGGGACCATA 

8151 CATTCTTGGA TTCAACGATT GATAATGGTT ATGCCTTCAC TGATCGCTAT 

8201 GACTTAGGTT TCAATACACC AACAAAGTAT GGCACTGATG GTGATTTGCG 

8251 T GCAACGATT GAAGCGCTAC ATCATGCTAA TAT GCAAGT T ATGGCTGACG 

8301 'X'TGTTGATAA CCAGGTCTAT AACTTACCTG GTAAAGAAGT TGTTTCAGCA 

8351 ACACGAGCAG GTGTTTAITGG TAATGACGAC GCCACGGGCT TTGGAACGCA 

3 £01 ACTCTATGTG ACTAACTCCG TTGGTGGTGG TCAATACCAA GAGAAATATG 

8451 CTGGACAATA CTTAGAAGCT CTGAAAGCAA AGTATCCASA CCTCTTTGAG 

8501 GGTAAGGCCT ATGATTATTG GTATAAGAAC TATGCAAATG ATGGGTCAAA 

8551 TCCTTACTAT ACATTGTCAC ACGGTGACCG TGAATCTATC CCAGCAGATG 

8601 TTGCTATTAA GCAATGGTCA GCTAAGTATA TGAACGGCAC GAACGTTTTG 

8651 GGCAATGGTA TGGGTTATGT ATTGAAGGAT TGGCATAATG GTCAATATTT 

8701 CAAGCTTGAT GGTGATAftAT CAACATTACC TCAAATTTAA TTTATTTTGA 

8751 TAGGGAACGA TTATCTT AT C JAAATTGTAGT GACAAAAGTC GCAGATATTG 

8801 AATCCAATAT CTGCGACTTT JTCGTCTGTAA AGCTATGCTA TAATAACGTT 

8851 ATGACAAAAG AAAATTATTT TAAAGTTGGC ACAATTGTCA ACACCCACGG 
8901 TATTCGTGGC GAAGTGAAGA TTATGGATAT C 



11/5 



LISTE DE SEQUENCES 

<110>* Centre National de la Recherche Scientifique 

Institut National des Sciences Appliquees de Toulo 

<120> MOLECULE D'ACIDES NUCLEIQUES CODANT UNE 

DEXTRANE-SACCHAfjASE CATALYSANT LA SYNTHESE DE DEXTRANE 
PORTANT DES RAMIFICATIONS DE TYPE ALPHA-1,2 OSIDIQUES 

<130> B4787 (INPI) CNRS/INSA TOULOUSE 

<140> 0103631 
<141> 2001-03-16 

<160> 17 

<170> Patent In Ver. 2,1 

<210> 1 
<211> 855 
<212> PRT 

<213> Acides amines (domaine catalytique n° 2) 
<400> 1 

Asp Met Ser Thr Asn Ala Phe Ser Thr Lys Asn Val Ala Phe Asn His 
15 10 15 

Asp Ser Ser Ser Phe Asp His Thr Val Asp Gly Phe Leu Thr Ala Asp 
20 25 30 

Thr Trp Tyr Arg Pro Lys Ser lie Leu Ala Asn Gly Thr Thr Trp Arg 
35 40 45 

Asp Ser Thr Asp Lys Asp Met Arg Pro Leu He Thr Val Trp Trp Pro 
50 55 60 

Asn Lys Asn Val Gin Val Asn Tyr Leu Asn Phe Met Lys Ala Asn Gly 
65 70 75 80 

Leu Leu Thr Thr Ala Ala Gin Tyr Thr Leu His Ser Asp Gin Tyr Asp 
85 . 90 95 

Leu Asn Gin Ala Ala q'ln Asp Val Gin Val Ala lie Glu Arg Arg He 
100 105 110 

Ala Ser Glu His Gly Thr Asp Trp Leu Gin Lys Leu Leu Phe Glu Ser 
115 # 120 125 

Gin Asn Asn Asn Pro Ser Phe Val Lys Gin Gin Phe He Trp Asn Lys 
130 135 140 

Asp Ser Glu Tyr His Gly Gly Gly Asp Ala Trp Phe Gin Gly Gly Tyr 
145 150 155 160 

Leu Lys Tyr Gly Asn Asn Pro Leu Thr Pro Thr Thr Asn Ser Asp Tyr 
165 170 175 

Arg Gin Pro Gly Asn Ala Phe Asp Phe Leu Leu Ala Asn Asp Val Asp 
180 " 185 190 

Asn Ser Asn Pro Val Val Gin Ala Glu Asn Leu Asn Trp Leu His Tyr 
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195 2°° 2 °5 

Lou Met Asn The Giy Thr He Thr Ala Gly Gin Asp Asp Ala Asn Phe 
210 215 220 

Asp Ser :i. Arg He Asp Ala Val Asp Phe He His Asn Asp Thr lie 
225 230 235 2.0 

Gin Arg Thr Tyr Asp Tyr Leu Arg Asp Ala Tyr Gin Val Gin Gin Ser 
245 "0 

Glu Ala Lys Ala Asn Gin His He Ser Leu Val Glu Ala Gly leu Asp 
260 265 

Ala Gly Thr Ser Thr He His Asn Asp Ala Leu He Glu Ser Asn Leu 
275 * 80 28j 

Arg Glu Ala Ala Thr Leu Ser Leu Thr Asn Glu Pro Gly Lys Asn Lys 
290 295 300 

Pro Leu Thr Asn Met Leu Gin Asp Val Asp Gly Gly Thr Leu He Thr 
303 31° 313 

Asp His Thr Gin Asn Ser Thr Glu Asn Gin Ala Thr Pro Asn Tyr Ser 
325 330 

He He his Ala His Asp Lys Gly Val Gin Glu Lys Val Gly Ala Ala 
340 345 350 

He Thr Asp Ala Thr Gly Ala Asp Trp Thr Asn Phe Thr Asp Glu Gin 
355 360 j65 

Leu Lys Ala Gly Leu Glu Leu Phe Tyr Lys Asp Gin Arg Ala Thr Asn 
370 " 375 380 

Lys Lys Tyr Asn Ser Tyr Asn He Pro Ser He Tyr Ala Leu Met Leu 
385 390 39= 

Thr Asn Lys Asp Thr Val Pro Arg Met Tyr Tyr Gly Asp Met Tyr Gin 
405 410 iJ3 

Asp Asp Gly Gin Tyr Met Ala Asn Lys Ser He Tyr Tyr Asp Ala Leu 

Val Ser Leo Met Thr Ala Arg Lys Ser Tyr Val. Ser Giy Gly Gin Thr 
435 445 

Met Ssr Val Asp Asn His Gly Leu Leu Lys Ser Val Arg Phe Gly Lys 
450 45S 460 

Asp Ala V»t Thr Ala Asn Asp Leu Gly Thr Ser Ala Thr Arg Thr Glu 
4 65 470 

Gly Leu Gly Val He He G.ly Asn Asp Pro Lys Leu Gin Leu Asn Asp 
495 490 ,S5 

Bar Asp Lys Val Thr Leu Asp Met Gly Ala Ala His Lys Asn Gin Lys 
500 305 3iu 

Tyr Arg Ala Val He Leu Thr Thr Arg Asp Gly Leu Ala Thr Phe Asn 
515 520 525 
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Ser Asp Gin Ala Pro Thr Ala Trp Thr Asn Asp Gin Gly Thr Leu Thr 
530 535 ~ 540 

Phe Ser Asn Gin Glu He Asn Gly Gin Asp Asn Thr Gin He Arg Gly 
545 550 555 560 

Val Ala Asn Pro Gin Val Ser Gly Tyr Leu Ala Val Trp Val Pro Val 
565 • 570 575 

Gly Ala Ser Asp Asn Gin Asp Ala Arg Thr Ala Ala Thr Thr Thr Glu 
580 585 590 

Asn His Asp Gly Lys Val Leu His Ser Asn Ala Ala Leu Asp Ser Asn 
595 600 605 

Leu lie Tyr Glu Gly Phe Ser Asn Phe Gin Pro Lys Ala Thr Thr His 
610 * 615 620 

Asp Glu Leu Thr Asn Val Val He Ala Lys Asn Ala Asp Val Phe Asn 
625 630 635 640 

Asn Trp Gly lie Thr Ser Phe Glu Met Ala Pro Gin Tyr Arg Ser Ser 
645 650 • 655 

Gly Asp His Thr Phe Leu Asp Ser Thr He Asp Asn Gly Tyr Ala Phe 
660 665 670 

Thr Asp Arg Tyr Asp Leu Gly Phe Asn Thr Pro Thr Lys Tyr Gly Thr 
675 680 685 

Asp Gly Asp Leu Arg Ala Thr He Gin Ala Leu His His Ala Asn Met 
690 695 700 

Gin Val Met Ala Asp Val Val Asp Asn Gin Val Tyr Asn Leu Pro Gly 
705 710 715 720 

Lys Glu Val Val Ser Ala Thr Arg Ala Gly Val Tyr Gly Asn Asp Asp 
725 730 735 

Ala Thr Gly Phe Gly Thr Gin Leu Tyr Val Thr Asn Ser Val Gly Gly 
740 745 750 

Gly Gin Tyr Gin Glu Lys Tyr Ala Gly Gin Tyr Leu Glu Ala Leu Lys 
755 , 760 765 

Ala Lys Tyr Pro Asp Leu Phe Glu Gly Lys Ala Tyr Asp Tyr Trp Tyr 
770 775 780 

Lys Asn Tyr Ala Asn Asp Gly Ser Asn Pro Tyr Tyr Thr Leu Ser His 
785 750 795 800 

Gly Asp Arg Glu Ser lie Pro Ala Asp Val Ala He Lys Gin Trp Ser 
805 810 815 

Ala Lys Tyr Met Asn Gly Thr Asn Val Leu Gly Asn Gly Met Gly Tyr 
820 825 830 

Val Leu Lys Asp Trp His Asn Gly Gin Tyr Phe Lys Leu Asp Gly Asp 
835 840 845 



Lys Ser Thr Leu Pro Gin lie 
85G 855 



<21C> 2 
<21t> 2G35 
<212> PRT 

<213> Acides amines (proteine complete DSR-D) 
<400> 2 

Met Arc Asp Met Arg Val lie Cys Asp Avg Lys Lys Leu Tyr Lys Scr 
1 " 5 10 15 

Gly Lys Val Leu Val Thr Ala Gly He Phe Ala Leu Met Met Phe Gly 
20 25 30 

Val Thr Thr Ala Ser Val Ser Ala Asn Thr He Ala Val Asp Thr Asn 
35 40 45 

His Ser Arq Thr Ser Ala Gin He Asn Lys Ser Ala Val Asp Lys Val 
50 55 60 

Asn Aso Aso Z=ys Thr Thr Leu Gly Ala Ala Lys Val Val Ala Val Ala 
65 70 75 80 

T'nr Tl-r Pro Ale Thr Pro Val Ala Asp Lys Thr Val Ser Ala Pre Ala 
85 90 95 

Ala Asp lys Ala Val Aso Thr Thr Ser Ser Thr Thr Pro Ala Thr Asp 
100 105 110 

Lys Ala Val Asp Thr Thr Pro Thr Thr Pro Ala Ala Asp Lys Ala Vai 
115 120 125 

Asp Thr Thr Pro Thr Thr Pro Ala Ala Asp Lys Ala Vai Asp Thr Thr 
130 135 140 

Pro Thr Thr Pro Ala Ala Asn lys Ala Val Asp Thr Thr Pro Ala Thr 
145 150 . 155 160 

Ala Ala Thr Asp Lys Al« Val Ala Thr Pro Ala Thr Pro Ala Ala Asp 
1 65 170 175 

Lys Leu Ala Asn Thr Thr Pro Ala Thr Asp Lys Ala Val Ala Thr Thr 
180 183 190 

Pro Ala Thr Pro Val Ala Asn Lys Ala Ala Asp Thr Ser Ser lie His 
195 200 205 

Asp Gin Fro Leu Asp Thr Asn Vai Pro Thr Asp Lys Ser Ala Asn Leu 
2' 0 215 220 

Val Ser Vnr Thr «Sln Lys Ser Thr Asp Asn Gin Gin Vel Lys Ser Thr 
225 230 235 240 

GJu Thr Scr His Leu Gin Glu He Asn Gly Lys Thr Tyr Phe Leu Asp 
245 250 255 

Asp Asn Gly Gin Val Lys Lys Asn Phe Thr Ala He He Asp Gly Lys 
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260 265 270 

Val Leu Tyr Phe Asp Lys Thr Ser Gly Glu Leu Thr Ala Asn Ala Pro 
275 " 280 285 

Gin Val Thr Lys Gly Leu Val Asn lie Asp Asn Ala His Asn Ala Ala 
290 ~ 295 300 

His Asp Leu Thr Ala Asp Asn Phe Thr Asn Val Asp Gly Tyr Leu Thr 
305 310 315 320 

Ala Asn Ser Trp Tyr Arg; Pro Lys Asp lie Leu Lys Asn Gly Thr Thr 
325 330 335 

Trp Thr Pro Thr Thr Ala Glu Asp Phe Arg Pro Leu Leu Met Ser Trp 
340 345 350 

Trp Pro Asp Lys Asn Thr 'Gin Val Ala Tyr Leu Gin Tyr Met Gin Ser 
355 360 365 

Val Gly Met Leu Pro Asp Asp Val Lys Val Ser Asn Asp Asp Asn- Met 
370 375 380 

Ser Thr Leu Thr Asp Ala Ala Met Thr Val Gin Lys Asn lie Glu Ser 
385 390 395 400 

Arg lie Gly Val Ser Gly Lys Thr Asp Trp Leu Lys Gin Asp Met Asn 
405 410 415 

Lys Leu He Asp Ser Gin Ala Asn Trp Asn lie Asp Ser Glu Ser Lys 
420 425 430 

Gly Asn Asp His Leu Gin Gly Gly Ala £eu Leu Tyr Val Asn Asp Asp 
435 440 445 

Lys Thr Pro Asn Ala Asn Ser Asp Tyr Arg Leu Leu Asn Arg Thr Pro 
450 455 460 

Thr Asn Gin Thr Gly' Gin He Thr Asp Pro Ser Lys Gin Gly Gly Tyr 
465" 470 475 " ' 480 

Glu Met Leu Leu Ala Asn 'Asp Val Asp Asn Ser Asn Pro Val Val Gin 
485 490 495 

Ala Glu Gin Leu Asn Trp 'Leu His Tyr Met Met Asn He Gly Thr He 
500 505 510 

Ala Gin Asn Asp Pro Thr Ala Asn Phe Asp Gly Tyr Arg Val Asp Ala 
515 520 ~ ' 525 

Val Asp Asn Val Asp Ala Asp Leu Leu Gin He Ala Gly Asp Tyr Phe 
530 535 540 

Lys Ala Ala Tyr Gly Thr Gly Lys Thr Glu Ala Asn Ala Asn Asn His 
545 550 555 560 

He Ser He Leu Glu Asp Trp Asp Asn Asn Asp Ser Ala Tyr He Lys 
565 570 575 

Ala His Gly Asn Asn Gin Leu Thr Met Asp Phe Pro Ala His Leu Ala 
580 585 590 
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Leu Lys Tyr Ala Leu Asn Met Pro Leu Ala Ala Gin Ser Gly Leu Glu 
595 600 605 

Pro Leu lie Asn Thr Ser Leu Val Lys Arg Gly Lys Asp Ala Thr Glu 

610 615 
Asa Glu Ala Gin Pre Asn Tyr Ala Phe He Arg Ala His Asp Ser Glu 
625 630 635 

Val Gin Thr Val He Ala Gin Tie He Lys Asp Lys He Asn Thr Lys 
645 650 655 

Ser Asp Gly Leu Thr Val Thr Pro Asp Glu He Lys Gin Ala Phe Thr 
660 665 6/U 

He Tyr Asn Ala Asp Glu Leu Lys Ala Asp Lys Glu Tyr Thr Ala Tyr 
675 680 685 

Asn He Pro Ala Ser Tyr Ala Val Leu Leu Thr Asn Lys Asp Thr Val 
630 695 700 

Pro Arg Val Tyr Tyr Gly Asp Leu Phe Ser Asp Asp Gly Gin Tyr Met 
705 ' 710 715 

Ser Gin Lys Ser Pro Tyr Tyr Asp Ala He Thr Ser Leu Leu Lys Ser 
725 730 735 

Arg lie Lys Tyr Val Ala Gly Gly Gin Sar Met Asn Met Thr Tyr Leu 
740 745 

His G:,u Cys Phe Asp Pro Ala Lys Asn Glu Thr Lys Pro Gin Gly Val 
755 760 765 

Leu Thr Ser Val Arg Tyr Gly Lys Gly Ala Met Thr Ala Asp Asp Leu 
770 775 780 

Gly Asn Ser Asp Thr Arg Gin Gin Gly He Gly Leu Val He Asn Asn 
785 790 79b 

Lys Pro She Leu Asn Leu Asn Asp Asp Glu Gin He Val Leu Asn Met 
805 S10 810 

Gly Ala Ala 511s Lys Asn Gin Ala Tyr Arg Pro Lou Met Leu Thr Thr 
820 825 830 

Lys Ser Gly Leu Gin He Tyr Asp Lys Asp Ala Gly Ala Pro Val Vol 
835 840 845 

Tyr Thr Asn Asp Ala Gly Gin Lou He Phe Lys Ser Asp Met Val Tyr 
350 555 360 

G-v Val Ser Asn Pro Cln Val Sor Gly Tvr Fhe Ala Ala Trp Val Pro 
865 B70 875 «80 

Vai Gly AH Ser Asp Ser G,n Asp Ala Arg Thr Gin Ser Ser Gin Ser 
rt <3 2 890 89^ 

Glu Thr Lys Asp Gly Asp Val Tyr His Ser Asn Ala Ala Leu Asp Ser 
900 905 910 



Asn Val lie Tyr Glu Gly Phe Ser Asn Phe Gin Ala Met Pro Glu Lys 
915 920 925 

Asn Asp Asp Phe Thr Asn Val Lys He Ala Gin Asn Ala Lys Leu Phe 
930 ' 935 940 

Lys Asp Leu Gly He Thr Ser Phe Glu Leu Ala Pro Gin Tyr Arg Ser 
945 ' 956 955 960 

Ser Thr Asp Asn Ser Phe Leu Asp Ser Val He Gin Asn Gly Tyr Ala 
965 . 970 975 

Phe Thr Asp Arg Tyr Asp Val Gly Tyr Asn Thr Pro Thr Lys Tyr Gly 
980 985 990 

Thr Val Asp Gin Leu Leu Asp Ser Leu Arg Ala Leu His Ala Gin Gly 
995 fc 1000 1005 

lie Gin Ala He Asn Asp Trp Val Pro Asp Gin He Tyr Asn Leu Pro 
1010 1015 1020 

Gly Glu Gin He Val' Thr Ala Val Arg Thr Asn Gly Ser Gly Lys Tyr 
1025 1030 1035 1040 

Asp Tyr Asp Ser Val He Asn Asn Thr Leu Tyr Asp Ser Arg Thr Val 
1045 1050 1055 

Gly Gly Gly Glu Tyr Gin Glu Lys Phe Gly Gly Leu Phe Leu Asp Gin 
1060 ~ 1065 1070 

Leu Lys Lys Asp Tyr Pro Ser Leu Phe Glu Thr Lys Gin He Ser Thr 
1075 1080 1085 

Asn Gin Pro Met Asn Pro Asp Val Lys He Lys Glu Trp Ser Ala Lys 
1090 1095 1100 

Tyr Phe Asn Gly Ser Asn He Gin Gly Arg Gly Ala Trp Tyr Val Leu 
1105 1110 1115 1120 

Lys Asp Trp Ala Thr Asn Gin Tyr Phe Asn Val Ser Ser Asp Asn Gly 
1125 1130 1135 

Phe Leu Pro Lys Gin Leu Leu Gly Glu Lys Thr Ser Thr Gly Phe He 
1140 1145 1150 

Thr Glu Asn Gly Lys Thr Ser Phe Tyr Ser Thr Ser Gly Tyr Gin Ala 
1155 1160 1165 

Lys Asp Thr Phe He Gin Asp Gly Thr Asn Trp Tyr Tyr Phe Asp Asn 
1170 1175 1180 

Ala Gly Tyr Met Leu Thr Gly Lys Gin Asn He His Asp Lys Asn Tyr 
1185 119.0 1195 1200 

Tyr Phe Leu Pro Asn Gly Val Glu Leu Gin Asp Ala Tyr Leu Phe Asp 
1205 1210 1215 

Gly Asn Gin Glu Phe Tyr Tyr Asn Lys Ala Gly Glu Gin Val Met Asn 
1220 1225 1230 
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ran "yr Tyr Gin Asp Ser Gin Asn Gin Trp His Tyr Phe Phe Glu Asn 
1235 1240 ! 

Gly Arg Met Ala He Glv Leu Thr Glu Val Pro Asn Ala Asp Gly Thr 
1250 1255 1260 

His Val Thr Gin Tyr Phe Asp Ala Asn Gly Val Gin lie Lys Gly Thr 
12 65 1270 1275 ■ 1280 

Ala He Lys Asp Gin Asn Asn Gin .Leu Arg Tyr Phe Asp Glu Ala Thr 
12 85 1290 1295 

Glv Asn Men Val Val Asn Ser Trp Gly Gin Leu Ala Asp Lys Ser Trp 
1300 1305 1310 

Leu Tyr Leu Asn Ala Gin Gly Val "Ala Val Thr Gly Asn Gin Lys He 
1315 1320 1325 

Asp Glv Glu Glu Tyr Tyr Phe Asn .Ala Asp Gly Lys Gin Val Lys Gly 
1330 1335 1340 

Asn Ala He He Asp Asn Asn Gly Asp Gin Arg Tyr Tyr Asp Gly Asp 
1345 1350 . 1355 1360 

Lys Gly Val Met Val Val Asn Ser Trp Gly Glu Leu Pre Asp Gly Ser 
y * 1365 1370" 1375 

Trp Leu Tyr Leu Asn Asp Lys Gly :Ile Ala Val Thx Gly Arg Gin Val 
3380 1385 1390 

i 

He Asn Asn Gin Val Asn Phe Phe 'dy Asn Asp Gly Lys Gin lie Lys 
13 95 140C' 1405 

Asp Ala Phe Lys Leu Leu Sec Asp Gly Ser Trp Val Tyr Leu Asp Asp 

' 1410 1415 1420 

Lys Gly Leu He Thr Thr Gly .Ala Lys Val lie Asn Gly Leu Asn Met 

1425 "30 I 435 1440 

Ph^ Phe Asp Lys Asp Gly His Gin. He Lys Gly Asp Ala Ser Thr Asp 
1445 : 1450 1455 

Ala Asn Gly Lys Arg His Tyr Tyr asp Lys Asn Asp Gly His Leu Val 
1460 1465 1470 

Thr Asn Ser Tro Gly Glu Leu Pro Asp Gly Ser Trp Leu Tyr Leu Glu 
1475 " 1^80. " 1485 

Glu Gin Gly Asp Ala Val Thr Gly Gin Arg Val He Asp Gly Lys Thr 
1490 1495 1500 

Arg Tyr Phe Asp Glu Anp GLy Lys- Gin He Lys Asn Ser Leu Lys Thr 
1505 151U 1535 

Leu Ala Asn Gly Asp Lyj He Tyr Leu Asp Gly Asp Gly Val Ala Ala 
1525 1530 1535 

Thr Gly Leu Gin His Vol Gly Asp, Lys He Met Tyr Phe Asp Glu Asp 

1545 1550 



1540 



.8 



Gly Lys Gin Val Val Gly Lys Phe Val Ser Ala Lys Asp Gly Ser Trp 
1555 1560 ' 1565 

Tyr Tyr Leu Asn Gin Asp Gly Val Ala Ala Val Gly Pro Ser Ser lie 
1570 1575 1580 

Asn Gly Gin Ser Leu Tyr Phe Asp Gin Asp Gly Lys Gin Val Lys Tyr 
1585 1590 • 1595 1600 

Asn Glu Val Arg Asn Ser Asp Gly Thr Thr Asn Tyr Tyr Thr Gly Leu 
1605 1610 1615 

Thr Gly Glu Lys Leu Thr Gin Asp Phe G\y Glu Leu Pro Asp Gly Ser 
1620 1625 1630 

Trp lie Tyr Leu Asp Ala Gin Gly His Thr Val Thr Gly Ala Gin He 
1635 1640 1645 

lie Asn Gly Gin Asn Leu Tyr Phe Lys Ala Asp Gly Gin Gin Val Lys 
1650 1655 1660 

Gly His Ala Tyr Thr Asp Gin Leu Gly His Met Arg Phe Tyr Asp Pro 
1665 1670 1675 1680 

Asp Ser Gly Asp Met Leu Ser Asn Arg Phe Glu Gin lie Thr Pro Gly 
1685 1690 1695 

Val Trp Ala Tyr Phe Gly Ala Asp Gly Val Ala He Thr Gly Gin His 
1700 1705 1710 

Asp He Asn Gly Gin Lys Leu Phe Phe Asp Glu Thr Gly Tyr Gin Val 
1715 1720 1725 

Lys Gly Ser Gin Arg Thr He Asp Gly Thr Leu Tyr Ser Phe Asp Ser 
1730 1735 1740 

Gin Thr Gly Asn Gin Lys Arg Val Gin Thr Thr Leu Leu Pro Gin Ala 
1745 1750 1755 1760 

Gly His Tyr He Thr Lys Asn Gly Asn Asp Trp Gin Tyr Asp Thr Asn 
1765 . 1770 1775 

Gly Glu Leu Ala Lys Gly Leu Arg Gin. Asp Ser Asn Gly Lys Leu Arg 
1780 1785 ' 1790 

Tyr Phe Asp Leu Thr Thr Gly He Gin Ala Lys Gly Gin Phe Val Thr 
1795 '" 1800 1805 

He Gly Gin Glu Thr Tyr Tyr Phe Ser Lys Asp His Gly Asp Ala Gin 
1810 1815 1820 

Leu Leu Pro Met Val Thr Glu Gly His Tyr Gly Thr -He Thr Leu Lys 
1825 1830 1835 1840 

Gin Gly Gin Asp Thr Lys Thr Ala Trp Val Tyr Arg Asp Gin Asn Asn 
1845 1850 1855 

Thr He Leu Lys Gly Leu Gin Asn He Asn Gly Thr Leu Gin Phe Phe 
1860 1865 1870 
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Asu Pro Tvr Thr Gly Glu Gin Leu Lys Gly Gly Vai Ala Lys Tyr Asp 

1875 1880 • 1885 

Asd Lys Leu Phe Tyr Phe Glu Ser Gly iys Gly Asn Leu Val Ser Thr 

"l<?30 l 89 ^ 1900 

Val Ala Gly Asp Tyr Gin Asp Gly His Tyr lie Ser Gin Asp Gly Gin 
1905 19 ''3 1915 • 

hr Arg Tyr Ala Asp Lys Gin Asn Gin Leu Val Lys Gly to Val Thr 
j925 1930 1935 

Val Asn Gly Ala Leu Gin Tyr Phe Asp Asn Ala Thr Gly Asn Gin He 
1940 I 945 195 

Lys Asn Gin Gin Val He Val Asp Gly Lys Thr Tyr Tyr Phe Asp Asp 
1955 19S0 1965 

Lys Gly Asn Gly Glu Tyr Leu Phe Thr Asn Thr ieu Asp Met Ser Thr 
1970 1975 i^ 80 

Asn Ala Phe Sor Thr Lys Asn Val Ala Asn His Asp Ser Ser Ser 

196 5 1990 1995 

Phe Asi> His Thr Val Asp Gly Phe Leu Thr Ala Asp Thr Tip Tyr Arg 
2005 2010 201o 

Fro Lys Ser lie Leu Ala Asn Giy Thr Thx Trp Axg Asp Ser Thr Asp 
2020 2025 2030 

-.ys Asr, Met Acq Pro Leu 11 o Thr Val Trp Trp Pro Asn Lys Asn Val 
2035 2040 2045 

Gin Val Asn Tvr Leu Asn Phe Met Lys Ala Asn Gly Leu Leu Thr Thr 
2050 " 2055 2060 

Ala Ala Gin Tyr Thr Leu His Ser Asp Gin Tyr Asp Leu Asn Gin Ala 
2065 2070 2075 2080 

Ala Gin Asp Val Gin Val Ala He Glu Arq Arg lie Ala Ser Glu His 
2035 2090 2095 

Gly Trr Asp Trp Leu Gin Lys Leu Leu Phe Glu Ser Gin Asn Asn Asn 
2100 2105 2110 

Pro Ser Phe Val Lys Gin Gin Phe He Trp Asn Lys Asp Ser Glu Tyr 
2115 2120 . 2125 

Ais Gly Gly Gly Asp Ala Trp Phe Gin Gly Gly Tyr Leu Lys Tyr Gly 
2130 2135 2140 

Asn Asn Pro Leu Thr Pro Thr Thr Asn Ser Asp Tyr Arg Gin Pro Gly 
2l£S 21b0 2155 2160 

Asn Ala Phe Asp Phe L-u Loo Ala Asn Asp Val Asp Asn Ser Asn Pro 
2165 2170 2175 

Val Val Gin Ala Glu Asn Leu Asn Trp Leu His Tyr Leu Met Asn Phe 
2180 2185 2190 
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Gly Thr He Thr Ala Gly Gin Asp Asp Ala Asn Phe Asp Ser He Arg 
2195 2200 2205 

He Asp Ala Val Asp Phe He His Asn Asp Thr He Gin Arg Thr Tyr 
2210 2215 2220 

Asp Tyr Leu Arg Asp Ala Tyr Gin Val Gin Gin Ser Glu Ala Lys Ala 
2225 " 2230 2235 2240 

Asn Gin His He Ser Leu Val Glu Ala Gly Leu Asp Ala Gly Thr Ser 
2245 2250 2255 

Thr He His Asn Asp Ala 'Leu lie Glu Ser Asn Leu Arg Glu Ala Ala 
2260 2265 2270 

Thr Leu Ser Leu Thr Asn Glu Pro Gly Lys Asn Lys Pro Leu Thr Asn 
2275 2280 2285 

Met Leu Gin Asp Val Asp Gly Gly Thr Leu lie Thr Asp His Thr Gin 
2290 2295 . 2300 

Asn Ser Thr Glu Asn Gin Ala Thr Pro Asn Tyr Ser He He His Ala 
2305 2310 2315 2320 

His Asp Lys Gly Val Gin Glu Lys Val Gly Ala Ala He Thr Asp Ala 
2325 2330 2335 

Thr Gly Ala Asp Trp Thr Asn Phe Thr Asp Glu Gin Leu Lys Ala Gly 
2340 2345 . 2350 

Leu Glu Leu Phe Tyr Lys Asp Gin Arg Ala Thr Asn Lys Lys Tyr Asn 
2355 2360 2365 

Ser Tyr Asn He Pro Ser He Tyr Ala Leu Met Leu Thr Asn Lys Asp 
2370 2375 2380 

Thr Val Pro Arg Met Tyr Tyr Gly Asp Met Tyr Gin Asp Asp Gly Gin 
2385 2390 2395 2400 

Tyr Met Ala Asn Lys Ser lie Tyr Tyr Asp Ala Leu Val Ser Leu Met 
2405 2410 2415 

Thr Ala Arg Lys Ser Tyr Val Ser Gly Gly Gin Thr Met Ser Val Asp 
2420 2425 2430 

Asn His Gly Leu Leu Lys Ser Val Arg Phe Gly Lys Asp Ala Met Thr 
2435 2440 2445 

Ala Asn Asp Leu Gly Thr Ser Ala Thr Arg Thr Glu Gly Leu Gly Val 
2450 2455 2460 

He He Gly Asn Asp Pro Lys Leu Gin Leu Asn Asp Ser Asp Lys Val 
2465 2470 2475 2480 

Thr Leu Asp Met Gly Ala Ala His Lys Asn Gin Lys Tyr Arg Ala Val 
2485 2490 2495 

He Leu Thr Thr Arg Asp Gly Leu Ala Thr Phe Asn Ser Asp Gin Ala 
2500 2505 2510 



Fro Th 



;r Ala Trp Thr Asn Rsp Gin Gly Thr I.eo *»« g« Ser Asn Gln 



2513 



2520 



Gio He Asn Gly Gin Asp Asn Thr Gin He Arg Gly Val Ala Asn Pro 
2530 2535 2540 

Gin Val Ser Gly Tyr Leu Ma VI Trp Val Pro Val Gly Ala Ser Asp 
2545 2550 2555 -" BU 

Asn Gin Asp Ala Arg Thr Ala Ala Thr Thr Thr Glu Asn His Asp Gly 
2565 25 ?0 . 

Lys Val Leu Kis Ser Asn Ala Ala Leu Asp Ser Asn Leu lie Tyr Glu 
2580 2585 2590 

Gly Phe Ser Asn Phe Gin Pro Lys Ala Thr Thr His Asp Glu Leu Thr 
2595 2600 2605 

Asn Val Val lie Ala Lys Asn Ala Asp Val Fhe Asn Asn Trp Gly He 
2610 2615 2620 

Thr Ser Phe Glu Met Ala Fro Gin Tyr Arg^Ser Ser Gly Asp His ? Thr 
2625 



2630 2635 2640 



Phe Leu Asp Ser Thr He Asp Asn Gly Tyr Ala Phe Thr Asp Arg Tyr 
2645 2650 

Asp Leu Gly Phe Asn Thr Pro Thr Lys Tyr Gly Thr Asp Gly Asp Leu 
2660 . 2865 2670 

Arg Ala Thr He Gin Ala Leu His His Ala Asn Met Gin Val Mot Ala 
9 2675 2680 2685 

Asp Val Val Asp Asn Gin Val Tyr Asn Leu Pro Gly Lys Glu Val Val 
" 2690 2695 2700 

Ser Ala Thr Arg Ala Gly Val Tyr Gly Asn Asp Asp Ala Thr Gly Phe 
2705 2710 2 '15 i'^ 

Gly Thr Gin Leu Tyr Val Thr Asn Ser Val C-ly Gly Gly Gin Tyr Gin 
2725 2730 

Giu Lys 'ivr Ala Gly Gin Tyr Leu Glu Ala Leu Lys Ala Lye Tyr Pro 
- 2740 2745 2750 

asp Leu Phe Glu C-ly Lys Ala Tyr Asp Tyr Trp Tyr Lys Asn Tyr Ala 
2755 27 60 27 6= 

Asn Asp Gly Ser Asn Pro Tyr Tyr Tnr Leu Ser His Gly Asp Arg Glu 
2770 2775 2780 

Ser He Pro Ala Asp Val Ala He Lys Gin Trp Ser Ala Lys Tyr Met 
2735 2790 ?' q 5 2800 

Asn Gly The Aan Val Lou Gly Asn Gly Mot Gly Tyr Val Leu I.ys Asp 
2805 2810 2815 

Tro His Asn cay Gin Tyr Phe Lys Leu Asp Gly Asp Lys Set Thr Leu 
2820 2825 2830 
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Pro Gin lie 
2835 



<210> 3 
<211> 2568 
<212> ADN 

<213> Nucleotides (domaine catalytique n° 2) 
<400> 3 

gatatgtcta ctaatgcttt ttciaccaaa aatgttgcat tcaatcatga cagta.gcagt. 60 
ttcgaccata ctgttgatgg cttcttgacg gcagatactt ggtatcgacc aaagtcaatt 120 
ttggctaacg ggacaacttg gcgtgattcg actgataagg atatgcgacc attaatcact 180 
gtttggtggc caaataagaa tgttcaagtc aactacctca acttcatgaa agcaaatggc 240 
ttgttgacaa cagcagcaca atacacacta cattcagatc aatatgattt gaaccaagct 300 
gcacaagatg ttcaagtggc .cattgaaagg cgcattgcgt cagagcatgg cacagactgg 360 
ttacagaaat tgttgtttga atcacaaaat aataacccat catttgtgaa gcaacaattc 420 
atttggaaca aggattctga atatcatggt ggtggtgatg cttggttcca aggtggttat 480 
ctgaagtatg gcaataaccc actcacacca acaactaatt ctgattatcg tcaacctggt 54 0 
aatgcatttg atttcttgct agccaacgac gtggataatt ctaatcctgt tgtgcaagct 600 
gaaaacttaa actggttaca ttacttaatg aactttggca ccatcactgc gggtcaagat 660 
gacgctaatt ttgatagtat tcgtattgac gctgtcgact ttattcataa tgatacaatc 720 
caacgtactt atgattatct tcgtgatgct tatcaagtgc aacaaagtga agccaaagca 780 
aaccagcaca tttcattggt tgaagctggc ttagacgcag gtacatcaac gattcataat 840 
gatgcgttaa ttgagtcaaa cctccgtgaa gcagcgacat tgtcgttaac aaatgaacct 900 
ggtaaaaata aaccattgac gaatatgcta caagacgttg acggcggtac gcttatcacc 960 
gaccatacgc agaatagtac agaaaatcag gcgacaccaa actattcaat tattcacgcg 1020 
cacgataaag gtgtgcaaga aaaagtaggt gcagccatta ctgatgctac tggtgctgat 1080 
tggacgaact ttacagatga acagttaaaa gccggattag agctattcta taaggatcag 1140 
cgcgcaacaa acaaaaagta taatagttat aacataccaa gtatttatgc cctgatgttg 1200 
acaaacaaag atactgttcc tcgtatgtat tatggggata tgtatcaaga tgacggacag 1260 
tatatggcaa acaagagtat ctactatgat gccttagtgt cattaatgac ggctcgtaaa 1320 
agctatgtca gcggtggtca aactatgagt gttgacaatc atggtttgtt gaagagtgtc 1380 
cgttttggaa aagatgcgat gacagctaat gatttaggta catcagctac gcgtactgag 1440 
ggtcttggtg tcattattgg taatgatcca aagttgcaac ttaatgattc ggataaagtg 1500 
acactggata tgggtgcagc acataaaaat caaaagtatc gcgcagttat cttaacaaca 1560 
cgtgatggtt tggcaacctt taattcagat caagcaccaa cagcttggac aaacgatcaa 1620 
ggaacgttaa cattctcaaa tcaagagatt aacgggcaag acaatacaca aattcgtggt 1680 
gttgctaatc cgcaagtttc tggttatcta gctgtttggg tgcctgtggg tgcatcagac 1740 
aatcaagatg cccgtacagc agcaacgaca acagaaaatc atgatggtaa agtattacac 1800 
tcgaatgcgg cattagattc taaccttatt tatgaaggtt tctctaactt ccaacctaag 1860 
gcaacaacgc atgatgaact tacgaacgtt gtaattgcta aaaatgccga tgtcttcaat 1920 
aattggggta ttacgagttt tgaaatggca ccacagtacc gttcaagtgg ggaccataca 1980 
ttcttggatt caacgattga taatggttat gccttcactg atcgctatga cttaggtttc 2040 
aatacaccaa caaagtatgg cactgatggt gatttgcgtg caacgattca agcgctacat 2100 
catgctaata tgcaagttat ggctgacgtt gttgataacc aggtctataa cttacctggt 2160 
aaagaagttg tttcagcaac acgagcaggt gtttatggta atgacgacgc cacgggcttt 2220 
ggaacgcaac tctatgtgac taactccgtt ggtggtggtc aataccaaga gaaatatgct 2280 
ggacaatact tagaagctct gaaagcaaag tatccagacc tctttgaggg taaggcctat 2340 
gattattggt ataagaacta tgcaaatgat gggtcaaatc cttactatac attgtcacac 24 00 
ggtgaccgtg aatctatccc agcagatgtt gctattaagc aatggtcagc taagtatatg 2460 
aacggcacga acgttttggg caatggtatg ggttatgtat tgaaggattg gcataatggt 2520 
caatatttca agcttgatgg tgataaatca acattacctc aaatttaa 2568 



<210> 4 
<211> 8506 
<212> ADN 

<213> Sequence codant DSR-D 



Hi 111 III ill llil Hi 1 

SIS SiS PP| |i I i 5H SiH s 
SliiHIIlllliHHSSHSSSi 

■■■■■■I 

ootaattac- ttaaagctgc atacggtar.t ggtaaaactg aggcaaacgc aaacaatcat 1680 

B r sssa ssss ssss ssss ss 

ctfcgccgcac aaag^ggcct agaaccgcta attaatacaa gtcttgttaa OTW" I860 

£™ ESS2 =5 SS 

a «gtLca2 cagatgagat taagcaagct ttcaccatrt ^caacgocga tgaattaaaa 2040 

^atgagLal agccacaagg tgtcttaaca tcagtacgct acggtaaagg t^gacg 23,0 
gctgacgatt tgggtaatag tgacacacgt caacaaggta ttggtttggt gattaataat 
aagccartct. tgaatttaaa t.gargar.gaa caaattgtgc ^aatacggg tgctgctcac 2460 
aalaafcaag ctraccgacc acttatgttg acaacaaaat ctqgtcttca "ttracgat 2o20 

5555 32525 S?S K5SS f= - 
SSSS S=ES= 3S5SS SSSS 53KS « 
=£SS ssss SSSS 5S5= SSSS ? 

Ltacagata atagtttttt ggattcggtt atccaaaacg get atgeett t»ctgatcga 2940 
tatgat-grtg gctataatac gecaacaaaa racggtacag ttgatcaacr tctagatagt 3000 
lltlalf^l ueaegcaca aggtatLcag gctattaatg actgggtaco tgatoaatt 3060 
tataattcac ctggcgaaca aatcgtcacc gcagttcgta caaatggttc aggtaagtac 312C 
St'.tg"f =agfgactaa taacacgctc tatgactcac gaaeagttgg ggqoggega. 3130 
?acoaagaaP ag^ctcgtgg ectgttctta gaccagttga aaaaagatta tcctagcttg 3240 
tttfiaaacta ageagalalc aacgaatcag ccgatgaatc cggatgttaa aattaaagaa 3300 
tggtcrgcaa agtractttaa tggitcaaac attcaaggtc gtggcgcttg gtatgtactt 3360 
afagacfggg cLcaaatca at.ttte.at gtgtctagtg ataatggatt =«gcctaaa 3420 
cagltactgg gtgaaaaaac aagcaccggc tttataacag aaaatggtaa gacttctttc 34B0 
taltcaacaa gtggttatca agctaaagat acetttatte aagatggaac aaattggtat 3540 



14. 




tactttgata atgcaggcta tatgttgaca 
tatttcttac ctaatggtgt ggaacttcaa 
ttttactata ataaagctgg ggaacaagtt 
caatggcatt atttctttga aaatggtcgc 
gctgatggca cccatgttac acaatatttt 
gctataaaag atcagaataa tcaattacgc 
gttaattcat ggggacagtr agcagataag 
gctgtgactg gtaaccaaaa aattgatggt 
caagttaaag gcaatgcaat catcgataat 
aagggtgtca tggtagttaa ttcatggggt 
aatgacaaag gtattgctgt a^acaggccgt 
ggtaatgatg gtaagcaaat caaagatgcc 
tatttggatg ataagggcct gataacaact 
ttttttgata aagacggtca tcaaatcaaa 
cgccattatt atgacaaaaa fcgatggtcat 
gatggttcat ggttatatct agaagaacaa 
gatggcaaga cacgctattt tgatgaagat 
ctggccaatg gcgataagat ttatcttgat 
catgtgggcg ataaaatcat gtattttgat 
gtatcagcaa aagatggttc atggtattac 
ccaagcagca ttaatggaca atcactttac 
aatgaagttc gtaatagtga tggaacaacc 
ttaacgcaag acttcggtga actaccagat 
catacagtaa ctggtgcaca aatcattaac 
cagcaagtta aaggtcatgc ttatactgac 
gattcaggtg atatgttgag taatcgcttt 
tttggtgctg atggtgtggc cataactgga 
tttgatgaga caggatatca agttaaaggt 
agcttcgatt ctcaaactgg taaccaaaaa 
ggtcactata tcacgaaaaa tggtaacgat 
aagggtctgc gtcaagatag caatggtaag 
caagcgaaag gccaatttgt tacaattggc 
ggggatgcgc agttattgcc aatggtcact 
caaggtcaag acaccaaaac agcctgggtt 
ggattgcaaa atatcaatgg cacgttgcaa 
aagggtggcg tagcaaagta tgacgacaag 
cttgttagca ccgtagcagg tgactatcag 
acacgttacg cagataagca aaatcagctt' 
ttacaatact ttgataacgc tactggtaac 
ggcaagacgt actattttga cgataaaggc 
gatatgtcta ctaatgcttt ^ttctaccaaa 
ttcgaccata ctgttgatgg : .cttcttgacg 
ttggctaacg ggacaacttg :gcgtgattcg 
gtttggtggc caaataagaa tgttcaagtc 
ttgttgacaa cagcagcaca atacacacta 
gcacaagatg ttcaagtggc cattgaaagg 
ttacagaaat tgttgtttga .atcacaaaat 
atttggaaca aggattctga atatcatggt 
ctgaagtatg gcaataaccc actcacacca 
aatgcatttg atttcttgct agccaacgac 
gaaaacttaa actggttaca ttacttaatg 
.gacgctaatt ttgatagtat tcgtattgac 
caacgtactt atgattatct tcgtgatgct 
aaccagcaca tttcattggt tgaagctggc 
gatgcgttaa ttgagtcaaa cctccgtgaa 
ggtaaaaata aaccattgac gaatatgcta 
gaccatacgc agaatagtac agaaaatcag 
cacgataaag gtgtgcaaga aaaagtaggt 
tggacgaact ttacagatga acagttaaaa 
cgcgcaacaa acaaaaagta taatagttat 
acaaacaaag atactgttcc tcgtatgtat 



ggtaaacaaa atatccacga taaaaattat 3600 
gatgcttacc tttttgatgg taatcaagaa 3660 
atgaaccagt attatcaaga tagtcaaaat 3720 
atggcaattg gcctgacaga agttccgaac 3780 
gatgctaatg gtgtccaaat taaaggcaca 3840 
tattttgatg aggccacagg taatatggtg 3900 
tcttggcttt accttaatgc acaaggcgtt 3960 
gaagagtact acttcaatgc tgatggtaag 4020 
aatggtgatc aacgttatta tgatggtgat 4080 
gagttgccag atggctcatg gttatatttg 4140 
caagtcatta ataatcaagt taatttcttt 4200 
tttaaattat tatccgafcgg tfccatgggtg 4260 
ggagccaaag ttatcaatgg tctaaatatg 4320 
ggtgatgcca gcacggatgc caatggtaag 4380 
cttgtcacaa attcatgggg tgagttgcca 4 440 
ggtgatgctg ttactggtca acgtgtgatt 4500 
ggcaaacaaa ttaaaaatag cctaaaaacg 4560 
ggtgatgggg ttgctgcaac aggcttacaa 4620 
gaagatggca aacaagttgt tggcaagttt 4 680 
ttaaatcagg atggtgttgc cgcggttggt 4740 
tttgatcaag atggtaaaca agttaaatat 4800 
aactattaca caggattaac gggtgaaaag 4 860 
ggttcatgga tttatcttga tgcgcaaggt 4 920 
ggtcaaaatc tttactttaa ggctgacggc 4980 
caattaggtc atatgcgttt ttatgatcct 5040 
gaacaaatca cacctggtgt atgggcttac 5100 
caacatgaca taaatggtca gaagctattc 5160 
tcgcaacgta caatagatgg tacgttatac 5220 
cgcgtacaga caacattgtt gccacaagca 5280 
tggcagtatg ataccaatgg tgaactagcg 5340 
ttgcgttact ttgatttgac aaccggcata 5400 
caagaaactt attactttag taaagatcac 54 60 
gaagggcatt acggtacaat aacactcaag 5520 
tacegtgatc aaaataatac tattttgaag 5580 
ttctttgatc catatacagg tgaacaactt 5640 
ctcttttact ttgaatcagg taaaggtaat 5700 
gatggtcatt atatttccca agatggccaa 5760 
gtaaagggac ttgttactgt taatggggca 5820 
caaataaaaa atcaacaagt tattgttgat 5880 
aatggtgaat acttattcac taatacatta 5940 
aatgttgcat tcaatcatga cagtagcagt 6000 
gcagatactt ggtatcgacc aaagtcaatt 6060 
actgataagg atatgcgacc attaatcact 6120 
aactacctca acttcatgaa agcaaatggc 6180 
cattcagatc aatatgattt gaaccaagct 6240 
cgcattgcgt cagagcatgg cacagactgg 6300 
aataacccat catttgtgaa gcaacaattc 6360 
ggtggtgatg cttggttcca aggtggttat 6420 
acaactaatt ctgattatcg tcaacctggt 6480 
gtggataatt ctaatcctgt tgtgcaagct 6540 
aactttggca ccatcactgc gggtcaagat 6600 
gctgtcgact ttattcataa tgatacaatc 6660 
tatcaagtgc aacaaagtga agccaaagca 6720 
ttagacgcag gtacatcaac gattcataat 6780 
gcagcgacat tgtcgttaac aaatgaacct 6840 
caagacgttg acggcggtac gcttatcacc 6900 
gcgacaccaa actattcaat tattcacgcg 6960 
gcagccatta ctgatgctac tggtgctgat 7020 
gccggattag agctattcta taaggatcag 7080 
aacataccaa gtatttatgc cctgatgttg 7140 
tatggggata tgtatcaaga tgacggacag 7200 





tat atggcaa acaagagta* gccttag^ catta^c jcjejxj- V260 

agctatgtca gcggtggtca a gg g^ gcgtactgag 73 80 

cgtrttggaa aagatgcgac g aca 9^aa. aaatcgcaac ttaatgattc ggataaagtg 7440 
ggtctcggtg tcattattgg * aa ^atcca aa 9"9? aa * * cttaacaaca 7500 

acactggata fcgggtgcugc a = a taaaaat «««^atc 9 » aaacgatcaa 7560 
cgtgatggtt tggcaasett taattcagat ^ a 9= a =; aa acaa tacaca aattcgtggt 767.0 
ggalcgcuaa caltcccaaa tcaagagact ^999=^9 tgcctgtggg tgcatcagac 7680 
gltgctaatc eg^agtttc tggttatcta 9-tgttrggg tgc g ggg tacac 7740 

aaccaagatg cccgtacagc. a9<= aa =9aca *S««St tctctaactt ccaacctaag 7300 
tcgaatgcgg cattagnttc ^aaccttatt ^argaaggtt tgtettcaat 7860 

gcaacaacgc atgatgaact tacgaacgtt 9taattgc« « « « ggaccataca 7920 
Lttggggta ttacgagttt tgaaatggca « a =^tacc ™ St. ggttto 7980 

ttcttggatt caacgattga «atggttat 9ccttcactg 9 agC gctacat 8040 

aatacaccaa caaagtatgg = ac tgatggt 9atttgcgtg ca 9 ctta cctggt 8100 

catgctaata tgcaagttat 99ctgacgtt ^tgataaco a 99 cacgggcttt 8160 

aaagaag^.g tttcagcaac acgagcaggt 9tttatggLa g « * gaaa tatgct 8220 
ggaacgcaac tctatg-cgac taactccgtt p^ggcggtc a * taaggcctat 8280 

5SSS 5KS2 5==W » 2SK S5SS5 - 
S3 SSSS KKE » jjSj— ™* «- 

caatatttca agcttgatgg cgataaatca acattacctc aaat-t 



<210> 5 
<211> 8931 
<212> ADN 
<213> G4n.e dsr-R 



<400> s 4.,=, |. al n 0 tt'a ttattatcat ggaacaatca 60 

aataatctgt ctccartgct. "caaaataa taatagtt.a gagccqattt 120 

atatcttatl tatattcact at ^aatatc =;^tcgca » ggtggttttt 180 

tttgggttat acaacgaatt ggUaaaggct a - aa gjatgagaga 240 

.atiftttct aaaattaccg aa ^agagga ^«.t.g ? - 300 

catgagggta atttgtgacc gtaaaaaatt 9tacaaatcg 9 caaat acgat 360 

cggtattttt gctttgatga r.gtttggcgt cacaac get a ^9"ag g M 4?0 

tgcagttgac acgaaccata gccgtacttc a ^ a g a ^ "ggcaglag ccacaacgcc 480 
ggttaatgat gacaagacta -"iaggagc gcagataagg cagtagatac 540 

agcgacaccg gtagcagata aaacagtaag ^cacccgt a * » oga cacctgc 600 
aacgrcatca acgacacctg caaeggataa ^cagtagat = ca gtag.«o 660 

aqcagataag gcagtagata oaacgccaac 9acacctgca gcag ay ccgct gcaac 720 
aacgccaacg acacctgcag caaataaagc - aa gctagcaa atacgacgcc 780 

agataaggcg ytagceaege = a 9<^cacc ^^goagaL aag 9 aagC agoaga 840 
r.gcaacggac aaggcagtag ^ a = a f^== ?? caag ?gtg ccaaccaata aatcagcaaa 900 
cacgagtagt afctcatgatc aacca-taga fc ^aaatgcg cca « caq aaacatc 960 
cctcgtctcg acaacacaaa aaa 9t-9ga caa caacaa Jt.agt« ^^^^ i020 
S^SS -ggtraagt SSStt gataaalcat ceggegaatt 1080 
ag t^actoaggg attagtaaat a«g f f g ™ 1200 



gaacttcacc qctattat 



gaeegcaaat gcaccgcaag t.actoaggg cagctaacag 1200 

ggctcatgat ctcacagcr.g ata.ct.ee "= aa "^ c tL aC accaa caacagcaga 3260 
ttggtaLcgt cciaaggaca tcttaaaaaa ^a=cg«cc =^ac ttatct a3 20 

ag-sttrtcga ecattge.-oa tgr.ct eggtg ^9 a ^ a 9 f ^f^ atgat gataa 1380 
alaata.atg caatc.gttg gratgetace tgacgatgtt a «^ a ^ a cg ^ ga l ttg g 1440 
tatgagoaca fcgaetgstg cgeiatgac L< 3"caaaag ga \ » 1S00 

tgtatctgga o.,aactgatt ggctcaagca a 5" a ^aac aaa ^0 a «g a ^ , 56Q 

aaattggaat attgatagcg aatcaaaggg t - iat 9 a " a ^ "ecatllat taaacegtae 1620 
at.eg^gaat gatgacaaaa =-=^aacgc 9 aa f a = a |^ £^j£Ut ^^ tl - 1680 
accaaccaac caaaccggcc aaattactga t=" a 9t aaa "^^ aat tgaaC tggct 1740 
fcac^g SSS g =caLlgc t a attttgaegg 1800 
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ttatcgtgtt gatgcggttg ataacgttga 
ctttaaagct gcatacggta ctggtaaaac 
cttggaagat tgggataata atgattctgc 
gacaatggat tttccagcac ,acttggcttt 
acaaagtggc ctagaaccgc itaattaatac 
agaaaatgaa gcacaaccaa actatgcctt 
cgttattgca caaattatta >ggataaaat 
accagatgag attaagcaag 'ctttcactat 
ggaatataca gcatacaata .ttcctgcttc 
tgtgccacgt gtttattatg .gtgatctatt 
gtcaccatac tatgacgcca ttacgtcact 
tggtcaaagt atgaatatga cgtacttgca 
aaagccacaa ggtgtcttaa catcagtacg 
-tttgggtaat agtgacacac gtcaacaagg 
cttgaattta aatgatgatg . aacaaattgt 
agcttaccga ccacttatgt ' tgacaacaaa 
cggagcgcca gttgtttata .' ctaacgatgc 
ctatggtgtc agcaatccac aggtatctgg 
gagtgatagt caagatgcta : gaacacaaag 
ctatcattca aatgctgcgc^ ttgattctaa 
agcaatgcct gaaaagaatg atgacttcac 
gtttaaagat ttagggatta caagctttga 
taatagtttt ttggattcgg ttatccaaaa 
tggctataat acgccaacaa aatatggtac 
attacacgca caaggtattc aggctattaa 
acctggcgaa caaatcgtca ccgcagttcg 
ttcagtgatt aataacacgc tctatgattc 
aaagtttggt ggcctgttct tagaccagtt 
taagcagata tcaacgaatc agccgatgaa 
aaagtacttt aatggttcaa acattcaagg 
ggcaacaaat caatatttca atgtgtctag 
gggtgaaaaa acaagcaccg gctttataac 
aagtggttat caagctaaag atacctttat 
taatgcaggc tatatgttga caggtaaaca 
acctaatggt gtggaacttc aagatgctta 
taataaagct ggggaacaag ttatgaacca 
ttatttcttt gaaaatggtc gcatggcaat 
cacccatgtt acacaatatt ttgatgctaa 
agatcagaat aatcaattac gctattttga 
atggggacag ttagcagata agtcttggct 
tggtaaccaa aaaattgatg gtgaagagta 
aggcaatgca atcatcgata ataatggtga 
catggtagtt aattcatggg gtgagttgcc 
aggtattgct gtaacaggcc gtcaagtcat 
tggtaagcaa atcaaagatg cctttaaatt 
tgataagggc ctgataacaa ctggagccaa 
taaagacggt catcaaatca aaggtgatgc 
ttatgacaaa aatgatggtc atcttgtcac 
atggttatat ctagaagaac aaggtgatgc 
gacacgctat tttgatgaag atggcaaaca 
tggcgataag atttatcttg atggtgatgg 
cgataaaatc atgtattttg atgaagatgg 
aaaagatggt tcatggtatt acttaaatca 
cattaatgga caatcacttt actttgatca 
tcgtaatagt gatggaacaa ccaactatta 
agacttcggt gaactaccag atggttcatg 
aactggtgca caaatcatta acggtcaaaa 
taaaggtcat gcttatactg accaattagg 
tgatatgttg agtaatcgct ttgaacaaat 
tgatggtgtg gccataactg gacaacatga 
gacaggatat caagttaaag gttcgcaacg 



tgccgatctc ttacaaattg ctggtgatta 18 60 
tgaggcaaac gcaaacaatc atatttcgat 1920 
gtacattaaa gcccacggga ataaccaatt 1980 
gaaatacgcc ttgaacatgc ctcttgccgc 204 0 
aagtcttgtt aagcgtggga aagatgccac 2100 
tatccgtgcc catgatagtg aagtgcagac 2160 
taacacaaaa tcagacggct taactgtaac 2220 
ttacaacgcc gatgaattaa aagcagataa 2280 
ttacgctgta ttgttgacaa acaaggatac 2340 
ttctgatgat ggacagtata tgtcacagaa 2400 
tttgaaaagc cgtatcaaat atgttgctgg 24 60 
tgagtgcttt gatccagcaa aaaatgagac 2520 
ttacggtaaa ggtgcgatga cggctgacga 2580 
tattggtttg gtgattaata ataagccatt 2640 
gctcaatatg ggtgctgctc acaaaaatca 2700 
atctggtctt caaatttacg ataaggatgc 27 60 
tggtcaactt atttttaagt cagatatggt 2820 
ttattttgct gcatgggtac cagtcggtgc 2880 
cagccagtca gaaactaagg atggcgatgt 2940 
tgtgatttat gaaggcttct cgaatttcca 3000 
caacgtaaaa attgctcaaa atgctaaatt 3060 
attagcaccg caatatcgtt caagtacaga 3120 
cggctatgcc tttactgatc gatatgatgt 3180 
agttgatcaa cttctagata gtctaagagc 3240 
tgactgggta cctgatcaaa tttataattt 3300 
tacaaatggt tcaggtaagt acgattatga 3360 
acgaacagtt gggggcggcg aataccaaga 34 20 
gaaaaaagat tatcctagct tgtttgaaac 34 80 
tccggatgtt aaaattaaag aatggtctgc 3540 
tcgtggcgct tggtatgtac ttaaagactg 3600 
tgataatgga ttcttgccta aacagttact 3660 
agaaaatggt aagacttctt tctactcaac 3720 
tcaagatgga acaaattggt attactttga 3780 
aaatatccac gataaaaatt attatttctt 3840 
cctttttgat ggtaatcaag aattttacta 3900 
gtattatcaa gatagtcaaa atcaatggca 3960 
tggcctgaca gaagttccga acgctgatgg 4020 
tggtgtccaa attaaaggca cagctataaa 4080 
tgaggccaca ggtaatatgg tggttaattc 414 0 
ttaccttaat gcacaaggcg ttgctgtgac 4200 
ctacttcaat gctgatggta agcaagttaa 4260 
tcaacgttat tatgatggtg ataagggtgt 4320 
agatggctca tggttatatt tgaatgacaa 4380 
taataatcaa gttaatttct ttggtaatga 4440 
attatccgat ggttcatggg tgtatttgga 4500 
agttatcaat ggtctaaata tgttttttga 4560 
cagcacggat gccaatggta agcgccatta 4 620 
aaattcatgg ggtgagttgc cagatggttc 4680 
tgttactggt caacgtgtga ttgatggcaa 4740 
aattaaaaat agcctaaaaa cgctggccaa 4800 
ggttgctgca acaggcttac aacatgtggg 4 860 
caaacaagtt gttggcaagt ttgtatcagc 4920 
ggatggtgtt gccgcggttg gtccaagcag 4980 
agatggtaaa caagttaaat ataatgaagt 5040 
cacaggatta acgggtgaaa agttaacgca 5100 
gatttatctt gatgcgcaag gtcatacagt 5160 
tctttacttt aaggctgacg gccagcaagt 5220 
tcatatgcgt ttttatgatc ctgattcagg 5280 
cacacctggt gtatgggctt actttggtgc 534 0 
cataaatggt cagaagctat tctttgatga 5400 
tacaatagat ggtacgttat acagcttcga 54 60 
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ttctcaaaot aac^aca gacaacatt ttgccacaag cjg-jct. «20 

tarcacgaaa aatggtaacg a "ggcag,a tgatacc.at g g g taeaagcgaa 5640 
qcgicaagat agcaatggta agttgcglta ^t.gatutg ™ acgggga tgc S700 

aggccaattt gtt.ca.ttg 9««.gaaac "attacttt ag g a 5760 

gcagutattg ccaatggtca ctgaagggca "acggtaca * ■ agggattgca 5820 

Ig.2acc.aa acagcctggg U-taccg tga tcaaaataat actatttt^ ™ b880 
aaatatcaat ggcacgttgc aattctttga *J t * aagqt a atcttgttag 5940 

=gtagcaaag tatgacgaca ag*x<* *ta ^"tgaatca ggc ^ aaa cacgtta 6000 
csccgtagca ggtgactatc aggatggtca "atatttcc caag gg acaata 6060 

cgcagataag caaaatcagc ttgtaaaggg act *9ttact ^taatgggg 6120 
c?ttgataac gctactggta .ccaaawaa a t a a ^atlgttg £ 618Q 
gtactattt-- gacgataaag 9caatggtga ^acttattc ^taat gt ? tcgacc a 6240 
tactaatgct ttttotacca ^aaatg.tgc ^ttoaatcat S ttttggc taa 6300 

tactgttgat ggcttcttga cggcagatac ttggtatcga c«a ctgtttggtg 6360 
cgggaoaact ?ggcgtgatt cgactgataa 9g*tatgcga ccattaatca 642Q 
gccaaataag aatgttcaag tcaactacct caacctc-tg | * tgca caaga 6480 

aacagcagca caatacacac *aca«caga tcaatatga | ggttacagaa 6540 

tgttcaagtg gccattgaaa 9gcgcattgc a ^ a ^?gtg aagcaacaat tcatttggaa 6600 
attgttgttt gaatcacaaa ataataaccc ^catttgtg aag at ctgaagta 6660 

coaggatrct gaatatcatg gtggtggtga tgcttggttc "aggtgg t g ^ ^ 
tggcaataac ccactcacac "acaactaa "c.gattat cgtcaac g 9 6780 
tgatttctt-.g ctagccaacg acgtggataa ".taa.cct gt g g aa 6840 

aaactggtca cattacttaa tgaacttr.gg caeca coc. gcggg - 9 cocaacgtac 6900 
Utttgatagt attegtattg aegctgtega -"tattcat aatgatac caaaccagca 6960 
ttatgattat cttcgtgatg octaccaagt 9«acaaagt ga g « atgat gcgt t 7020 
catttcattg gttgaagctg ^ttagaege ^£a=atca ^ ct ggtaaaaa 7080 

aattgagtca aacctccgrg ^gcagegac '"gtcgtta * cogaocatac -7140 

tsaacc-ctg aegaatatge t.a,v.x.gacgt ^eggegg - cgcacgataa 7200 

gcagaatagt acagaaaatc aggcgacacc ^a = a ^ gg t gctg Jtggacgaa 7260 
aggtgtgcaa gaaaaagtag gtgeagecat tactgatget ^ctggtg g £ ^ 
cl?tacagat. gaacagttaa aaqceggatt Wt.t« $™*2?gt tgacaaacaa 7380 
o.acaasaag tataatagtt ataacacacc ^|t«ttat 9ccctga^g agtstatggc 7440 
.gatactgtc ectegtatgt attatgggga tatgtatcaa fj£ f aaagctatgt 7500 
saacaagagt atctactatg atgccttagt gtcautaacg ^ * tccgttttgg 7560 
cagcgg?ggt caaactatga g^tgacaa tcatggtttg "gaag.gtg tccg^gg ^ 
aaaagatgcg atgacagcta atgatttagg ^catcagct aegeg g cact 7680 
tgtcatr.art ggtaatgatc caaagctgea ^"aatgat tegg. g ^ 7740 
ratgggtgca gcacataaaa atcaaaagta tegegcagtt c aag « aacgtt 7800 

tttggcaacc tttaactcag atcaagcacc aacagcttgg /t gtgttgctaa 7860 

aaca?tctca aatcaagaga ttaaegggea ^ aclatlaaga 7920 

teegcaagtt tctggttatc tagotgtttg ^gcctgtg fj^ actcgaatgc 7980 
Lgcccgtaca qcagcaacca Coac.gaaaa ^f^gg- « aggcaacaac 8040 

ggcattagat tctaacctta ttxatgaagg t^«=taac ttccaa^^ £ gg ^ Q0 

gcatgatgaa cttacgaacg ^tgtaattgc taaa.atgc g | eattettgga 8160 

tattacgagt tttgaaatgg caccac=.gt.a = c 9ttcaagc tcaatacacc 8220 

.tcaacgatt gataatggtt atgccttcac ^gategctat 9-ttaggtt ^ ^ ^ Q 

aacaaagtat ggcac-.gatg ^gatt.gcg tgcaacgatt gtaaagaagt 8340 

tatgeaagtt arggctgacg ItgL^gataa c "«^" geraeggget ttggaacgca 8400 
tgtttcagca acacgagcag gr.g..£catgg ..aatgacgac ^ccac^gg ggacaata 8460 

^tctatgtg actaactccg t- ; gg^g^ 9 g^aggee? atgattattg 9620 

cr.t.agaagct ctgaaagcaa ^^tccaga =^ctttgag gg W acq gtgaccg 8580 
gtar.aagaac tatgeaaatg atgggt.aaa tcctta^ca _ tgaaeggcac 8640 

•goacctatc ccagcagatg trgctattaa <5«atggtca 9-"^ gleaatattt 6700 
gaacgttttg ggcaatggta -"-O^tcatgt ^aa^gat tggca^a.g 876 „ 
cagcttgat ggtgataaat ^acattacc tcaaatt aa ttacC « ctg ^ gacttt 8820 
ttatcltatc aaattgtagt a°«»«£« ^r«a2 aaaattattt taaagttggc 8880 
a^cccfcgg taU"cgtggc gaagtgaaga ttatggatat = 
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<210> 6 
<211> 17 
<212> PRT 
<213> Peptides 



Ala°Asn Trp Asn He Asp Ser Glu Ser Lys Gly Asn Asp His Leu Gin 
1 5 10 



Gly 



<210> 7 
<211> 24 
<212> PRT 
<213> Peptides 



Gly°Gly Tyr Glu Met Leu Leu Ala Asn Asp Val Asp Asn Ser Asn Pro 
1 5 10 15 

Val Val Gin Ala Glu Gin Leu Asn 
20 



<210> 8 
<211> 21 
<212> PRT 
<213> Peptides 



<400> 8 

Ala Asn Phe Asp Gly Tyr Arg Val 
1 .5 

Asp Leu Leu Gin He 
20 



Asp Ala Val Asp Asn Val Asp Ala 
10 15 



<210> 9 
<211> 12 
<212> PRT 
<213> Peptides 

<400> 9 

His He Ser He Leu Glu Asp Trp Asp Asn Asn Asp 
1 5 , 10 



<210> 10 
<211> 15 
<212> PRT 
<213> Peptides 

<400> 10 

Tvr Ala Phe He Arg Ala His Asp Ser Glu Val Gin Thr Val He 
! 5 10 15 
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<210> 13 

<2ii> e 

<212> PRT 
<213> Feptides 

<400> 11 

Asp Trp Val Fro Asp Gin He Tyr 



<210> 32 
<211> 19 
<212> PRT 
<213> Peptides 

<400> 12 

Phe He Trp Asn Lys Asp Ser 
1 5 

Phe Gin Gly 



Tyr His Gly Gly Gly Asp Ala Trp 
10 15 



<210> 13 
<211> 24 
<212> PRT 
<213> Peptides 

<400> 13 



JSSmJ 3 *- A*P H- I« ,eu Ma Asn Asp Vol Asp An S.r Asn Pro 
5 10 



Val Val Gin Ala Glu Asn 7~eu Asn 
20 



<210> 14 
<2U> 13 
<212> PRT 
<213> Peptides 

A^As^Phe Asp Ser He Arg He Asp Ala Val Asp Pne 
1 -~ ; 



<2.10> 15 
<?XX> 3 

<Z\ri> PRT 

<213> Peptides 

<400> 15 
Kis Lie Scr Leu 
1 



Val Glu Ala Gly 

5 
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<210> 16 
<211> 8 
<212> PRT 

<213> Peptides [ 
<400> 16 

Tyr Ser lie He His Ala His Asp 
1 5 . 



<210> 17 
<211> 8 
<212> PRT 
<213> Peptides 

<400> 17 

Asp Val Val Asp Asn Gin Val Tyr 
1 5 
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Pierre Emmanuel Frederic 



Adresse 



Rue 



22 Chemin de la Gravettc 



3 1 700 1 MONDONVILLE _ 



I Societe d'appartenance (faculiatij) 



Nom 



Adresse 



Rue 



Code postal et vilte 



fsociete d'appartenance (faculialif) 



Prenoms 



Adresse 



Rue 



Code postal et vilte 



1 Societe d'appartenance (JacuMif) 



I DATE ET SI G NATURE (S) 

DU (DES) DEWJANDEUR(S) 
I OU DU MANDATAIRE 
| (Nom ot qualft© du signature) 

Paris, tc 5 avril 2001 
. LAZARD Florence 
CPI n° 92.4029 



V, 



la loi n°78-17 du 6 janvier 1978 rdafive a rmfo rmatique. aux Betters ot au* liberies Applique ^aux Senses taites a ce 
Ble garantit un droit d'acces et de rectification pour tes donnees vous concernant auprcs de I INPI. 



■niwLiNinnn 

WAXIOIUL 01 

la moMnrre 



BREVET D'INVENTION 
CERTIFICAT D'UTILITE 

Code de la propriSte tntellectuelle - Livre VI 



' N' 11235*02 



DEPARTEMENT DES BREVETS 

26 bis. rue de Saint Pdtersbourg 
75800 Paris Cedex 08 

T6liphone : 01 53 04 53 04- Telecopie : 01 42 93 £ 



DESIGNATION D'INVENTEURfS) Page N° J. . / 2. . 
(Si le demandeur n'est pas I'inventeur ou I'unique inventeur) 



Vos references pour ce dossier 

(facultatij) 


B4787-FL 


N° D'E NREGISTRE M ENT NATIONAL 


0103631 


TITRE DE L' INVENTION <200 caractcres ou espaces maximum) 

MOLECULES D'ACIDES NUCLEIQUES COD ANT UNE DEXTRANE- 
SACCHARASE CATALYSANT LA SYNTHESE DE DEXTRANE 
PORTANT DES RAMIFICATIONS DE TYPE ALPHA-1,2 OSIDIQUES. 


LE(S) DEMANDEUR(S) : 

INSTITUT NATIONAL DES SCIENCES APPLIQUEES DE TOULOUSE 
CENTRE NATIONAL DE LA RECHERCHE SCIENTIQUE 


representes par 






ERNEST GUTMANN-YVES PLASSERAUD S. A. 
3 rue Chauveau-Lagarde - 75008 PARIS 


DESIGNE(NT) EN TANT QU'INVENTEUR(S) : (Indiquez en haut a droite «Page N° 1/1* S'il y a plus de trois inventeurs, 
utilise* un formulaire identique et numerotez chaque page en indiquant le nombre total de pages). 


Norn 


BOZONNET 


Prenoms 


Sophie, Anne, Michele 


Adresse 


Rue 


16ruedcla Gravette 




Code postal et ville 


31150 | GAGNAC-SUR-GARONNE | 


Societe d'appartenance (facultatij) 




Norn 


REMAUD-SIMEON 


Prenoms 




Magali, Martine, Claude 


Adresse 


Rue 


1 rue Benjamin Charrier 




Code postal et ville 


3 1 520 | RAMON VILLE S AINT-AGNE 


Societe d'appartenance (facultatij) 




Norn 


W1LLEMOT 


Prenoms 




Ren6-Marc, Lucien i 


Adresse 


Rue 


3 Residence Casteltrompette 




Code postal et ville j 


3 1450 | POMPERTUZAT 


Societe d'appartenance (facultatij) 




DATE ET SIGNATURE(S) 

DU (DES) DEMANDEUR(S) 

OU DU iVIANDATAIRE 

(Norn et qualite du signataire) 

Paris, le 5 avril 2001 I 

LAZARD Florence \/~ .J 

CPI n° 92.4029 J~ 
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EHe garantit un droit d'acces et de rectification pour les donnees vous concernant aupres de riNPL 



This Page is Inserted by IFW Indexing and Scanning 
Operations and is not part of the Official Record 



Defective images within this document are accurate representations of the original 
documents submitted by the applicant. 

Defects in the images include but are not limited to the items checked: 

□ BLACK BORDERS 

□ IMAGE CUT OFF AT TOP, BOTTOM OR SIDES 

□ FADED TEXT OR DRAWING 

□ BLURRED OR ILLEGIBLE TEXT OR DRAWING 

□ SKEWED/SLANTED IMAGES 

□ COLOR OR BLACK AND WHITE PHOTOGRAPHS 

□ GRAY SCALE DOCUMENTS 



□ REFERENCE(S) OR EXHIBIT(S) SUBMITTED ARE POOR QUALITY 

□ OTHER: 



IMAGES ARE BEST AVAILABLE COPY. 
As rescanning these documents will not correct the image 
problems checked, please do not report these problems to 
the IFW Image Problem Mailbox. 



BEST AVAILABLE IMAGES 




LINES OR MARKS ON ORIGINAL DOCUMENT 



